为 什么 要 写 这 本 书 


随 着 国内 各 个 Al 峰 会 的 召开 ， 各 个 开源 深度 学 习 框 架 meetup 的 火爆 举行 ， 深 度 学 习 技 术 的 发 展 正在 如 火 如 茶 地 进行 之 中 ， 很 多 公司 已 经 将 深度 学 习 技 术 大 范围 落地 并 且 应 用 于 生产 之 中 。 深 度 学 习 的 
研发 人 员 已 经 从 最 初 的 通过 优化 算法 ， 在 公开 数据 集 上 取得 不 俗 的 成 绩 ， 转 变 到 如 今 在 应 用 的 引导 之 下 ， 设 计 优化 深度 学 习 算法 并 将 其 用 于 生产 之 中 。 写 一 本 深度 学 习 技术 与 实用 案例 类 的 技术 图 书 是 我 持 
续 了 很 久 的 想法 。 由 于 工作 和 学 习 较 为 紧张 ， 最 初 只 是 对 参与 或 学 习 过 的 深度 学 习 相 关 案 例 进 行 了 总 结 ， 但 是 随 着 时 间 的 推移 ， 最 终 我 还 是 打算 将 其 中 通用 的 算法 、 模 块 流程 以 及 应 用 场景 抽象 出 来 ， 进 行 
适当 简化 并 整理 成 书 ， 这 也 算是 我 对 深度 学 习 的 一 个 总 结 和 分 享 。 


深度 学 习 是 发 源 于 人 工 神经 网 络 的 一 种 机 器 学 习 模 型 ， 它 立足 于 更 深 的 模型 ， 具 有 更 强 的 拟 合 能 力 ， 在 计算 机 视觉 、 语 音 识 别 、 自 然 语言 处 理 等 领域 均 取得 了 不 俗 的 成 果 ， 并 在 其 他 应 用 场景 中 也 逐步 
获得 了 做 人 的 成 绩 。 深 度 学 习 已 成 为 当下 最 受 关 注 的 人 工 智能 技术 ， 拥 有 着 庞大 的 社区 支持 ， 应 用 场景 与 工具 支持 也 日 趋 完 善 。 


现在 越 来 越 多 的 同行 已 经 了 解 并 且 开始 应 用 深度 学 习 技术 。 但 是 对 于 工程 师 和 研发 人 员 来 说 ， 市 场 上 还 缺少 一 本 关于 深度 学 习 的 实用 案例 类 图 书 ， 很 多 深度 学 习 初 学 者 和 开发 人 员 只 能 参考 网 络 上 零星 
的 技术 博客 或 文档 ， 这 使 得 学 习 过 程 变 得 零碎 且 艰 难 ， 而 本 书 正 是 为 了 解决 这 些 的 问题 而 着 意 编写 的 。 


本 书 希 望 展现 给 读者 一 个 系统 化 的 视角 ， 秉 承 大道 至 简 的 主导 思想 ， 讲 解 深度 学 习 的 基本 原理 ， 以 及 如 何在 深度 学 习 技 术 上 构建 复杂 的 人 工 智能 应 用 ， 帮 助 读者 开启 深度 学 习 技术 应 用 之 旅 。 
本 书 特 色 

从 技术 层面 上 讲 ， 本 书 介绍 了 人 工 智能 领域 中 发 展 势头 正 盛 的 深度 学 习 技 术 和 应 用 。 深 度 学 习作 为 一 种 机 器 学 习 算 法 ， 不 仅 具 有 模型 结构 的 灵活 性 ， 可 快速 构建 适用 于 不 同 领 域 的 模型 结构 与 算法 ， 同 
时 具有 强大 的 模型 拟 合 能 力 ， 能 够 在 CPU 等 硬件 ，TensorFlow 等 软件 层 框架 的 支撑 下 ， 发 挥 人 工 智能 解决 问题 的 能 力 ， 依 托 于 深度 网 络 的 通用 学 习 能 力 ， 快 捷 地 构建 广 受 欢迎 的 人 工 智能 产品 。 


从 适合 读者 阅读 和 掌握 知识 的 角度 进行 结构 安排 ， 从 深度 学 习 基本 概念 和 机 制 介绍 入 手 ， 结 合 TensorFlow 及 其 相关 深度 学 习 框架 ， 构 建 相 应 的 网 络 结构 实战 案例 ， 并 在 最 后 结合 不 同 的 应 用 场景 构建 人 
工 智能 应 用 。 本 书 所 讲 内 容 涵盖 较为 全 面 ， 不 仅 介 绍 了 基本 原理 ， 如 何 进行 深度 学 习 ， 同 时 结合 应 用 场景 构建 应 用 ， 还 总 结 了 一 些 实用 经 验 。 


书 中 一 些 实际 操作 和 应 用 相关 的 章节 ， 比 较 适 合 人 工 智 能 和 机 器 学 习 开 发 人 员 参 考 ， 可 以 作为 工作 手边 书 ; 算法 和 优化 实践 方面 的 章节 ， 则 比较 适合 机 器 学 习 和 算法 工程 师 ， 可 以 分 享 经 验 ， 用 于 拓展 
解决 问题 的 思路 。 


- 深度 学 习 与 人 工 智能 应 用 开发 人 员 


* 开源 软件 爱好 者 


. 其 他 对 深度 学 习 与 人 工 智 能 技术 感 兴 趣 的 人 员 


如 何 阅读 本 书 
本 书 共 计 10 章 ， 各 章 内 容 安 排 概括 如 下 。 
第 1 章 从 深度 学 习 的 概念 出 发 ， 介 绍 深度 学 习 的 来 龙 去 脉 ， 痢 述 深 度 学 习 技 术 的 知识 图 谱 以 及 不 同 层面 的 技术 概览 。 
第 2 章 详细 介绍 了 深度 学 习 机 制 、 典 型 模型 原理 与 设计 初衷 。 
第 3 章 详细 介绍 了 深度 学 习 框 架 TensorFlow， 以 实战 加 深 对 深度 学 习 技 术 的 理解 ， 为 后 续 使 用 莫 定 基础 。 
第 4 章 详细 介绍 了 TensorFlow 的 高 阶 特 性 与 实战 优化 最 佳 实践 。 
第 5 章 从 实际 出 发 ， 详 细 介绍 如 何 通过 深度 学 习 技 术 构 建 语音 识别 器 ， 采 用 主流 深度 学 习 语 音 识 别 模 型 作为 实例 。 


第 6 章 详细 介绍 了 对 话机 器 人 领域 的 技术 ， 以 及 如 何 通 过 深度 学 习 技术 构建 对 话机 器 人 。 





第 7 章 详 细 介 绍 了 深度 学 习 的 重要 应 用 领域 一 人 脸 识别 ， 以 及 主流 的 人 脸 识别 模型 与 实践 。 

第 8 章 介绍 了 自动 驾驶 领域 的 相关 技术 ， 以 及 如 何 通过 深度 学 习 进行 车 辆 检测 和 端 到 端的 自动 驾驶 解决 方案 。 
第 9 章 详细 介绍 了 深度 学 习 与 人 工 智 能 中 可 视 化 的 实例 ， 使 得 研发 人 员 能 够 更 加 直观 地 诊断 优化 和 呈现 结构 。 
第 10 章 总 结 了 深度 学 习 训练 和 推断 中 可 能 会 涉及 的 、 需 要 注意 和 调节 的 优化 点 ， 和 希望 他 山 之 石 可 以 攻 玉 。 


如 果 你 有 一 定 深度 学 习 的 经 验 ， 能 够 理解 深度 学 习 和 TensorFlow 的 相关 基础 知识 和 使 用 技巧 ， 那 么 可 以 直接 阅读 本 书 第 5 ~ 10 章 。 如 果 你 是 一 名 初学 者 ， 最 好 从 第 1 章 的 基础 知识 开始 学 起 。 


勘误 和 支持 


由 于 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 居 请 读者 批评 指正 。 如 果 你 有 更 多 的 宝贵 意见 ， 请 反馈 给 我 们 ， 我 们 会 尽量 为 你 提供 最 满意 的 解答 ， 欢 迎 读者 朋友 加 QQ 群 
(687690969) 进行 技术 交流 。 


你 可 以 通过 微 博 @ 高 彦 杰 gyj， 公 共 号 “戏说 Al 大 数据 ”， 邮 箱 “gaoyanjie55@163.com” KAZE. 
你 也 可 以 通过 知 乎 专栏 “神经 网 络 学 习 与 Tensorflow. 实 践 ”， 邮 箱 “cangye@hotmail.com” 联系 到 于 子叶 。 


期 待 能 够 得 到 你 的 真挚 反馈 ， 在 技术 之 路 上 互 勉 共 进 。 


致谢 
感谢 机 械 工业 出 版 社 华章 公司 的 编辑 杨 福 川 和 张 锡 鹏 ， 在 近 半 年 的 时 间 里 始终 支持 我 们 的 写作 ， 是 你 们 的 鼓励 和 帮助 引导 我 们 顺利 完成 全 部 书稿 。 
特别 致谢 


谨 以 此 书 献 给 我 们 最 亲爱 的 爱人 、 家 人 、 同 事 ， 以 及 众多 热爱 深度 学 习 与 人 工 智能 技术 的 朋友 们 ! 


深度 学 习 以 及 与 深度 学 习 有 关 的 一 些 重要 知识 ， 比 如 深度 学 习 的 一 些 基础 概念 、 应 用 和 支撑 技术 。 深 度 学 习 的 内 容 非常 广泛 ， 所 涉及 的 概念 也 很 多 ， 其 发 展 遵 循 事物 发 展 的 “螺旋 上 


希望 本 章 能 为 读者 建立 全 面 的 深度 学 习 知 识 体系 ,为 后 续 的 学 习 和 工作 打下 坚实 的 基础 。 


深度 学 习 的 概念 源 于 人 工 神经 网 络 的 研究 ， 是 人 工 智能 的 一 个 分 支 。 包 含 多 隐 层 的 多 层 感 知 器 就 是 一 种 深度 学 习 结 构 。 深 度 学 习 是 通过 层次 结构 来 完成 特征 从 形成 到 更 加 抽象 的 高 层 特征 提取 工作 的 ， 
进而 对 样本 进行 预测 。 深 度 学 习 可 以 解决 有 监督 学 习 、 强 化 学 习 、 无 监督 学 习 等 问题 。 


神经 网 络 算法 是 具有 广泛 适用 性 的 一 类 算法 ， 深 度 学 习 是 人 工 神经 网 络 的 一 个 分 支 ， 具 有 深度 网 络 结构 的 人 工 神经 网 络 是 深度 学 习 最 早 的 网 络 模型 ， 深 度 神经 网 络 相 比 于 普通 神经 网 络 ， 其 拥有 更 深 更 
宽 的 网 络 结 构 ， 在 此 之 上 还 有 卷 积 层 、LSTM 等 新 的 网 络 组 件 。 


深度 学 习 所 涉及 的 组 件 和 网 络 结构 的 其 他 概念 将 在 后 续 章 节 进 行 详细 的 介绍 。 


1.1.1 深度 学 习 能 解决 的 问题 


深度 学 习 具 有 解决 广泛 问题 的 能 力 ， 因 为 其 拥有 自动 学 习 数 据 中 的 重要 特征 信息 的 能 力 。 深 度 学 习 具 备 很 强 的 非 线 性 建 模 能 力 。 众 多 复杂 问题 本 质 上 都 是 高 度 非 线性 的 ， 而 深度 学 习 实现 了 从 输入 到 输 
出 的 非 线性 变换 ， 这 是 深度 学 习 在 众多 复杂 问题 上 取得 突破 的 重要 原因 之 一 。 文 本 、 图 像 、 语 音 等 问题 都 比较 复杂 ， 这 就 需要 模型 具有 很 强 的 非 线 性 建 模 能 力 。 


分 类 和 回归 是 人 工 智能 以 及 机 器 学 习 中 两 个 非常 重要 的 问题 。 


a 


分 类 希望 能 够 自动 识别 某 种 数据 的 类 别 。 输 入 是 样本 ， 输 出 是 样本 应 该 属于 的 类 别 。 一 般 情 况 下 是 这 样 的， 首先 通 过 已 有 的 数据 、 已 经 标记 的 分 类 ， 通 过 训练 得 到 可 用 的 分 类 器 模型 ， 然 后 通过 模型 预 
测 新 输入 数据 的 类 别 ， 例 如 针对 不 同类 别 动物 的 图 像 进行 分 类 。 举 例 来 说 ， 我 们 首先 为 每 种 动物 照片 指定 特定 的 标签 ， 例 如 飞机 、 车 、 记 等 ， 然 后 通过 图 像 分 类 的 算法 建立 一 个 分 类 模型 ， 针 对 新 的 照片 ， 


分 类 器 可 以 通过 这 个 模型 输出 对 应 的 标签 。 


如 图 1-1 所 示 ， 分 类 器 可 以 将 图 片 分 为 三 类 。 





图 1-1 分 类 问题 


回归 与 分 类 相似 ， 但 是 输出 需要 是 连续 的 数据 ， 根 据 特定 的 输入 向 量 预测 其 指标 值 。 例 如 ， 我 们 有 历史 股票 的 时 间 - 价 格 信息 ， 价 格 是 连续 数据 ， 通 过 数据 训练 回归 模型 ， 最 终 将 未 来 的 时 间 信 息 输 入 到 
训练 好 的 回归 模型 ， 回 归 模 型 能 够 预测 未 来 时 间 点 的 价格 。 如 图 1-2 所 示 ， 可 以 通过 深度 学 习 模型 ， 基 于 历史 的 收盘 价 ， 学 习 回 归 模 型 ， 预 测 未 来 时 间 点 的 价格 。 
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图 1-2 ”回归 问题 


深度 神经 网 络 能 够 灵活 地 对 分 类 或 回归 问题 进行 建 模 和 分 析 ， 这 依赖 于 其 对 于 特征 的 自动 提取 。 例 如 ， 可 以 通过 卷 积 层 来 表达 空间 相关 性 ， 通 过 RNN 表 达 序 列 数 据 的 时 间 连 续 性 。 另 一 个 实例 就 是 
Word2Vec， 通 过 浅 层 神经 网 络 可 以 将 单词 转换 为 向 量 表示 。 


根据 问题 和 数据 的 潜在 特性 ， 研 究 人 员 设 计 深 度 学 习 网 络 结构 如 何 从 输入 到 输出 逐步 提取 对 预测 有 影响 的 信息 ， 进 而 将 不 同 的 网 络 组 件 组 织 连 接 起 来 。 随 着 大 数据 的 增长 、 计 算 力 的 提升 、 算 法 模型 的 
进化 ， 深 度 神经 网 络 模型 的 复杂 度 也 变 得 越 来 越 高 ， 这 表现 为 深度 与 广度 两 方面 的 扩展 。 





深度 学 习 研 究 及 应 用 的 一 个 目标 是 算法 及 网 络 结构 尽量 能 够 处 理 各 种 任务 ， 而 深度 学 习 的 现状 是 在 各 个 应 用 领域 仍然 需要 结合 领域 知识 和 数据 特性 进行 一 定 结构 的 设计 。 例 如 ， 自 然 语言 处 理 任务 的 每 
一 个 输入 特征 都 需要 对 大 量 的 词 、 句 等 进行 建 模 ， 并 考虑 语句 中 词汇 之 间 的 时 间 顺 序 。 计 算 机 视 党 中 的 任务 对 每 一 个 样本 都 需要 处 理 大 量 的 图 像 像素 输入 ， 并 结合 图 像 局 部 性 等 特性 设计 网 络 结构 。 下 面 是 
深度 学 习 中 的 几 个 常见 的 适用 领域 。 


计算 机 视觉 (Computer Vision) 就 是 深度 学 习 应 用 中 的 重要 研究 方向 之 一 ， 是 解决 如 何 使 机 器 “看 ”这 个 问题 的 科学 。 因 为 视觉 对 人 类 以 及 许多 动物 来 说 毫 不 费力 ， 但 是 对 计算 机 来 说 这 个 任务 却 充 
满 了 挑战 。 深 度 学 习 中 有 许多 针对 计算 机 视觉 的 细 分 研究 和 应 用 方向 ， 图 像 识 别 、 物 体检 测 、 人 脸 识 别 、OCR 等 。 


通过 以 下 几 个 计算 机 视觉 的 典型 问题 和 应 用 ， 我 们 可 以 快速 了 解 计算 机 视觉 能 够 解决 的 问题 。 
(1) 图 像 识 别 


图 像 识 别 问题 的 输入 是 一 张 图 片 ， 输 出 图 片 中 要 识别 的 物体 类 别 。 自 从 2012 年 以 来 ，CNN 和 其 他 深度 学 习 技术 就 已 经 占据 了 图 像 识别 的 主流 地 位 。 在 图 像 识 别 领域 有 一 些 公开 的 数据 集 和 竞赛 驱动 着 整 
体 技术 的 发 展 ， 例 如 ，lmageNet 是 目前 世界 上 最 大 的 图 像 识别 数据 库 ， 是 由 美国 斯 坦 福 的 计算 机 科学 家 ， 模 拟人 类 的 识别 系统 而 建立 的 。 


(2) 物体 检测 


物体 检测 问题 的 输入 是 一 张 图 片 ， 输 出 的 是 待 检 测 物 体 的 类 别 和 所 在 位 置 的 坐标 ， 通 过 深度 学 习 方式 可 以 解决 。 有 的 研究 方法 将 问题 建 模 为 分 类 问题 ， 有 的 将 其 建 模 为 回归 问题 。 如 图 1-3 所 示 ， 物 体检 
测 可 以 识别 图 像 中 的 人 、 狗 、 车 辆 、 马 等 。 





图 1-3 ”物体 检测 


(3) 人 脸 识 别 


人 脸 识 别 又 可 以 细 分 为 很 多 子 问 题 ， 例 如 ， 人 脸 检测 是 将 一 张 图 片 中 的 人 脸 位 置 识别 出 来 ， 人 脸 校准 是 将 图 片 中 人 脸 更 细 粒 度 的 五 官位 置 找 出 来 ， 人 脸 识别 是 给 定 一 张 图片 ， 检 测 数据 库 中 与 之 最 相似 


的 人 脸 。 
(4) OCR 


从 早期 的 通用 扫 摘 文档 识别 ， 到 银行 卡 、 身 份 证 、 票 据 等 证 件 识 别 以 及 车 牌 识别 都 属于 OCR。 
2. 语 音 识 别 


工业 界 和 学 术 界 掀起 的 深度 学 习 浪 潮 在 语音 识别 领域 取得 了 巨大 的 成 功 。RNN 模 型 充分 考虑 了 语音 之 间 的 相互 关系 ， 因 此 取得 了 更 好 的 效果 。 深 度 学 习 在 语音 识别 中 的 作用 很 大 一 部 分 表现 在 特征 提取 
上 ， 可 以 将 其 看 成 是 一 个 更 复杂 的 特征 提取 器 。 当 然 深度 学 习 的 作用 不 仅 仪 是 特征 提取 ， 还 逐渐 涌现 出 了 基于 深度 学 习 的 端 到 端的 解决 方案 。 但 这 并 不 是 说 CNN 在 语音 识别 中 无 用 武之 地 ， 我 们 一 般 习 惯 于 
利用 CNN 的 良好 训练 与 速度 优势 ， 而 且 其 效果 并 不 差 。 


3. 目 然 语 言 处 理 


深度 学 习 在 自然 语言 处 理 中 的 应 用 越 来 越 广泛 ， 从 底层 的 分 词 、 语 言 模型 、 句 法 分 析 等 到 高 层 的 对 话 管 理 、 知 识 问答 、 聊 天 、 机 器 翻译 等 方面 几乎 全 部 都 有 深度 学 习 模 型 的 身影 ， 并 且 取 得 了 不 错 的 效 
R, 


从 数据 上 看 ， 经 过 前 些 年 互联 网 的 发 展 ， 很 多 公司 都 完成 了 海量 文本 数据 的 积累 。 当 数据 量 增 大 时 ， 若 模型 较 浅 ， 则 无 法 对 海量 数据 中 的 非 线 性 关系 进行 建 模 ， 从 而 不 能 带 来 性 能 上 的 提升 。 以 深度 神 
经 网 络 为 代表 的 深度 模型 ， 能 够 随 着 模型 复杂 度 的 增加 ， 对 数据 进行 更 为 精准 的 建 模 ， 进 而 获得 更 好 的 效果 。 


从 算法 上 看 ， 首 先 ，Word2Vec 的 出 现 ， 使 得 我 们 可 以 高 效 地 表示 词 ， 这 在 一 定 程度 上 缓解 了 语义 问题 ， 降 低 了 输入 特征 的 维度 ， 从 而 降低 了 输入 层 的 复杂 度 。 

深度 学 习 模型 的 灵活 性 ， 使 得 之 前 比较 复杂 的 包含 多 流程 的 任务 ， 可 以 使 用 端 到 端 (End to End) 的 方法 进行 解决 。 当 采用 Encoder-Decoder 架 构 后 ， 模 型 可 以 将 输入 语言 直接 映射 到 输出 语言 ， 从 而 
完成 很 多 语言 学 问题 。 
4. 自 动 驾驶 


自动 驾驶 也 是 这 几 年 逐渐 应 用 深度 学 习 进 行 开发 的 一 个 重要 领域 。 自 动 驾驶 的 人 工 智 能 包含 了 感知 、 决 策 和 控制 等 流程 和 模块 。 感 知 是 指 通过 摄像 头 、 激 光 雷 达 等 传感器 的 输入 ， 进 而 解析 出 周围 环境 
的 信息 ， 例 如 有 哪些 障碍 物 ， 障 碍 物 的 速度 和 距离 ， 道 路 的 宽度 和 曲率 等 。 决 策 是 根据 感知 信息 判断 如 何 进 行 下 一 步 的 行进 规划 ， 控 制 是 将 决策 信息 作用 于 实 车 。 而 自动 驾驶 中 又 包含 了 很 多 细 分 子 问题 ， 
如 道路 与 车 道 线 的 检测 、 前 车 检测 、 行 人 检测 和 防 撞 系 统 ， 以 及 End to End 的 自动 驾驶 模型 等 。 


(1) 基于 规则 (Rule Based) 的 方式 


传统 规则 式 的 无 人 驾驶 系统 发 展 到 现在 ， 实 车 试验 已 经 有 十 几 年 ， 研 究 更 是 有 二 三 十 年 。 业 界 和 学 术 界 主流 还 是 基于 规则 系统 ， 从 车 辆 、 传 感 器 感知 ， 然 后 进行 决策 、 控 制 ， 最 后 到 车 辆 ， 形 成 一 个 完 
整 的 闭环 ， 每 个 流程 又 涉及 大 量 的 功能 模块 。 


(2) 端 到 端的 方式 


英 伟 达 在 一 款 汽车 应 用 产品 中 ， 用 卷 积 神经 网 络 (CNN) 将 车 前 部 摄像 头 捕捉 到 的 原始 像素 图 映射 为 汽车 的 方向 操控 命令 。 这 种 强大 的 端 到 端 技术 意味 着 ， 只 需要 人 们 提供 少量 的 训练 数据 ， 系 统 就 能 
学 会 自动 驾驶 技术 ， 无 论 有 没有 车 道 标志 线 ， 无 论 是 在 普通 公路 还 是 高 速 公路 上 都 是 如 此 。 但 是 深度 学 习 在 带 来 简便 的 同时 也 存在 着 难以 解决 的 问题 。 


1.2 深度 学 习 的 技术 友 展 


深度 学 习 近 年 来 的 大 范围 应 用 和 发 展 ， 除 了 要 归功 于 大 数据 沉淀 和 计算 能 力 的 提升 ， 同 时 也 得 益 于 深度 学 习 模 型 的 灵活 性 。 反 过 来 看 传统 的 机 器 学 习 ， 每 个 算法 都 是 针对 特定 的 应 用 。Al 工 程 师 和 研发 
人 员 更 多 的 工作 是 在 进行 特征 的 抽取 上 。 而 深度 学 习 则 可 以 有 更 多 样 的 输入 和 输出 ， 例 如 任意 维度 的 张 量 ， 甚 至 大 小 都 是 可 以 变化 的 。 同 时 模型 在 设计 上 也 很 灵活 ， 能 对 更 加 复杂 的 问题 进行 建 模 。 我 们 也 
可 以 认为 深度 学 习 更 像 是 一 种 语言 ， 我 们 通过 它 来 描述 对 问题 的 理解 。 下 面 将 从 基础 技术 、 应 用 等 维度 展开 深度 学 习 技 术 的 发 展 状况 。 


1.2.1 基础 技术 发 展 

我 们 可 以 从 框架 层 、 硬 件 层 、 标 准 层 对 深度 学 习 的 基础 技术 进行 关注 ， 通 过 应 用 场景 整体 进行 驱动 后 端的 技术 发 展 。 接 下 来 就 从 不 同 的 层面 对 深度 学 习 技 术 进 行 全 面 的 了 解 。 
1. 框 架 

深度 学 习 计算 框架 目前 处 于 百花 齐 放 的 状态 ， 也 有 开源 后 应 用 非常 广泛 的 Google 开 源 的 TensorFlow、 微 软 开 源 的 CNTK 和 百度 主推 的 PaddlePaddle、 亚 马 逊 主推 的 MXNet。 


框架 的 多 样 性 导致 了 深度 学 习 框架 前 端 用 户 接口 的 多 样 化 ， 微 软 也 推出 了 Visual Studio Tools for Al， 可 以 在 一 套 开发 工具 内 集成 各 种 框架 进行 开发 。 


深度 学 习 框 架 的 发 展 与 编程 语言 的 发 展 比较 类 似 ， 随 着 编程 语言 的 多 样 化 与 CPU 架构 的 变化 ， 有 了 后 来 的 LLVM ， 将 语言 的 前 端 与 后 端 分 离开 来 ， 为 新 语言 和 新 硬件 提供 了 非常 好 的 支持 。 对 于 深度 学 
习 ， 类 似 于 LLVM ,产生 了 NNVM 项 目 ， 其 尝试 将 深度 学 习 的 前 端 与 后 端 进行 解 炮 。 


2. 硬 件 


深度 学 习 的 执行 作业 需要 大 量 的 和 矩阵 和 向 量 计算 ， 基于 GPU、FPGA、ASIC 等 异 构 硬 支 撑 深 度 学 习 运 算 的 场景 在 各 大 公司 不 断 进行 尝试 。 例 如 GPU 适 合 模型 训练 ，CPU 由 于 大 量 存 在 也 经 常用 作 云 端 模 
型 预测 ， 但 很 多 厂商 也 开始 走 FPGA 路 线 。ARM 主 要 用 于 手机 等 低 功 耗 的 场景 ， 但 很 可 能 其 很 快 就 会 被 定制 的 FPGA/ASIC 所 取代 。 虽 然 目前 的 主流 硬件 是 Nvidia CPU， 但 Intel 正 在 试图 通过 下 一 代 的 神经 
引擎 迎头 赶 上 。 


3. 标 准 


随 着 框架 和 模型 的 发 展 ， 越 来 越 多 的 公司 和 生产 环境 产生 了 大 量 不 同 标准 的 模型 ， 模 型 和 框架 之 间 的 转换 是 工程 师 和 研究 人 员 想 要 解决 的 问题 。 微 软 和 Facebook 发 布 了 一 个 全 新 的 开源 项 目 一 一 
ONNX， 欲 借 此 打造 一 个 开放 的 深度 学 习 开 发 工具 生态 系统 。 该 项 目的 目的 是 让 不 同 的 神经 网 络 开发 框架 做 到 互通 互 用 。 早 前 ，Microsoft Cognitive Toolkit、PyTorch 和 Caffe2 均 已 宣布 支持 ONNX。 后 
3, AMD、ARM、 华 为 、1BM、 英 特 尔 、 高 通 等 同时 宣布 支持 ONNX。 研 究 人 员 可 以 轻易 地 在 当前 顶尖 的 机 器 学 习 工 具 之 间 进 行 转换 ， 并 为 项 目 选择 最 好 的 组 合 方式 。 


1.2.2 ”应 用 技术 发 展 


深度 学 习 在 不 同 应 用 场景 下 的 发 展 也 十 分 迅速 ， 其 在 语音 、 计 算 机 视觉 、 自 然 语 言 处 理 等 领域 都 取得 了 不 俗 的 成 绩 ， 同 时 在 原 有 机 器 学 习 的 场景 下 ， 研 究 人 员 也 在 不 断 党 试 使 用 深度 学 习 的 方案 优化 原 
有 的 解决 方案 。 


1 .深度 学 习 在 语音 识别 领域 的 发 展 


传统 语音 识别 系统 的 代表 方法 是 GMM-HM M 等 架构 和 方法 。 之 后 微软 成 功 地 将 深度 学 习 应 用 到 语音 识别 系统 中 ， 相 比 之 前 的 最 优 方法 ， 单 词 错误 率 降 低 了 很 多 。 随 后 微软 基于 上 下 文 相 关 的 深度 神经 


网 络 一 一 隐 马 尔 可 夫 模 型 ， 成 功 识别 大 词汇 量 语音 ， 改 变 了 语音 识别 系统 的 原 有 框架 。 目 前 许多 国内 外 知名 的 语音 研究 机 构 ， 如 微软 、 讯 《、Google 等 公司 都 在 积极 研究 深度 学 习 在 语音 识别 上 的 应 用 。 在 
应 用 层面 ， 苹 果 Siri、 微 软 小 娜 等 应 用 ， 对 开发 者 开放 了 语音 识别 AP1， 语 音 识 别 的 应 用 也 在 如 火 如 茶 地 发 展 中 。 


2 .深度 学 习 在 计算 机 视觉 领域 的 发 展 


公开 数据 集 和 竞赛 ， 如 ImageNet 等 ， 促 进 了 深度 学 习 在 图 像 识 别 领域 的 进展 。 深 度 神经 网 络 朝 着 更 深层 、 更 
度 学 习 在 计算 机 视觉 领域 的 外 延 逐渐 拓展 开 来 ， 我 们 可 以 看 到 以 下 的 应 用 。 


o 


在 声音 、 图 像 、 文 本 三 个 领域 中 ， 深 度 学 习 在 图 像 识别 领域 对 识别 效果 的 提升 最 为 显著 
宽 的 网 络 结构 ， 更 快 的 计算 方式 和 更 高 的 利用 率 平台 架构 ， 更 广泛 的 视觉 应 用 领域 发 展 。 深 


.互联 网 领域 : 核 身 平 台 、 直 播 美 颜 等 。 
. 安防 领域 : 机 场 安 检 、 车 牌 定位 、 目 标 追 踪 等 。 
“日常 生活 : 门禁 系统 、 人 脸 识 别 、 表 情 识 别 等 。 


如 图 1-4 所 示 ， 在 安防 领域 经 过 人 脸 检测 、 关 键 点 定位 与 人 脸 对 齐 、 人 脸 特征 提取 比 对 与 认证 可 以 实现 人 脸 识别 的 身份 识别 系统 。 


特征 提取 器 





图 1-4 人 脸 识别 核 身 系统 
3. 深 度 学 习 在 自然 语言 处 理 领 域 的 发 展 


自然 语言 处 理 问题 是 深度 学 习 在 除了 语音 和 图 像 处 理 之 外 的 另 一 个 重要 的 应 用 领域 。 数 十 年 以 来 ， 自 然 语言 处 理 的 主流 方法 是 基于 统计 的 模型 进行 处 理 。 我 们 可 以 看 到 深度 学 习 对 NLP 的 贡献 。 深 度 学 
习 在 NLP 的 细 分 领域 取得 了 很 大 进展 ， 比 如 机 器 翻译 、 问 答 系 统 、 聊 天 机 器 人 、 情 感 分 析 等 。 同 时 深度 学 习 也 面临 了 很 多 挑战 ， 即 如 何 与 领域 知识 、 语 言 学 知识 结合 ;如 何 通 过 增强 学 习 的 方式 利用 环境 提 
升 系 统 ; 如 何 利 用 上 下 文学 习 和 用 户 画像 体现 个 性 化 的 结果 。 


如 图 1-5 所 示 的 是 用 户 体验 与 微软 小 冰 进 行 对 话 的 场景 ， 小 冰 背 后 大 量 使 用 了 深度 学 习 技 术 。 
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图 1-5 “对 话机 器 人 微软 小 冰 


1.3 深度 学 习 的 知识 AAA =A 


如 下 列举 内 容 所 示 ， 深 度 学 习 所 涉及 的 知识 点 非常 广泛 ， 有 基础 理论 、 深 度 学 习 网 络 结构 、 测 试 基准 数据 集 、 开 发 框架 、 优 化 算法 ， 以 及 机 器 学 习 中 类 似 的 问题 一 一 分 类 





拟 合 等 。 


深度 学 习 知 识 点 汇总 


: 应 用 问题 


问题 、 回 归 问 题 、 过 拟 合 和 从 


计算 机 视觉、 语音 识别 、 自 然 语 言 处 理 等 。 


分 类 、 回 归 、 特 征 提取 等 


ImageNet、Coco、MNIST 等 。 
. 工具 
TensorFlow、CNTK、MXNet 等 。 

“ 理论 

优化 算法 、BP、BPTT、 线 性 代数 等 。 


基础 架构 


训练 平台 、 在 线 推断 平台 、 云 平台 深度 学 习 服 务 、GPU、FPGA 等 。 


1.3.1 深度 学 习 的 预备 技术 


1 .编程 语言 


深度 学 习 框架 的 底层 实现 语言 大 多 是 C+ +/C 这 样 可 以 达到 高 运行 效率 的 语言 。 操 作 语言 更 简单 易 用 ， 按 照发 展 趋势 ，Python 将 是 未 来 深度 学 习 的 操作 平台 语言 。 同 时 很 多 框架 都 可 以 通过 脚本 的 方式 
配置 网 络 并 且 训练 模型 。 


2. 编 程 框架 

:以 TensofFlow、Caffe、CNTKE、Torch、MXNet 为 主 的 深度 学 习 功 能 性 平台 。 这 类 平台 提供 了 非常 完备 的 基本 模块 ， 可 以 让 开发 人 员 快 速 创建 深度 神经 网 络 模型 并 且 开始 进行 训练 ， 可 以 解决 现今 深度 
学 习 中 的 大 多 数 问 题 ， 通 常 提供 命令 式 、 声 明 式 的 编程 接口 ， 或 者 提供 可 以 通过 配置 文件 配置 的 深度 神经 网 络 。 但 是 这 些 模块 很 少将 底层 运算 功能 直接 暴露 给 用 户 。 

- 以 Keras 为 主 的 深度 学 习 抽 象 化 平台 。Keras 本 身 并 不 具有 底层 运算 协调 的 能 力 ，Keras 依 托 于 TensorFlow 或 者 Theano 进 行 底层 运算 ， 而 Keras 自 身 提供 了 神经 网 络 模块 的 抽象 化 和 训练 中 的 流程 优化 。 

“ 以 NNVM 为 代表 的 深度 学 习 编 译 器 。NNVM 是 一 个 神经 网 络 比 较 高 级 的 中 间 表 示 模 块 ， 深 度 学 习 领 域 的 编译 器 ， 它 包含 了 图 的 表示 以 及 与 执行 无 关 的 各 种 优化 。 


- 以 Visual Studio Tools for AI 为 代表 的 集成 化 AI 开发 工具 ， 可 以 在 一 个 IDE 下 进行 深度 学 习 全 流程 以 及 多 种 框架 的 开发 。 


3. 数 学 基础 


要 想 学 好 深度 学 习 需 要 有 一 定 的 数学 基础 ， 读 者 可 以 参考 相应 的 书籍 进行 前 置 数学 基础 的 学 习 与 补充 。 深 度 学 习 主要 涉及 的 数学 知识 点 是 高 等 数学 、 线 性 代数 和 概率 论 。 高 等 代数 中 是 导数 、 极 值 等 知 
识 点 对 应 的 求 损失 函数 的 最 优 值 。 线 性 代数 中 的 向 量 和 和 矩阵 运算 对 应 于 深度 学 习 中 的 数据 和 特征 表示 ， 以 及 基本 的 运算 。 概 率 论 中 的 概率 与 条 件 概率 、 分 布 等 知识 点 对 应 通过 概率 图 对 问题 进行 建 模 。 


1.3.2 ”深度 学 习 的 技术 构成 


1. 深 度 学 习 中 的 特征 表达 


深度 学 习 将 Al 工程 师 从 繁重 的 特征 工程 中 解脱 出 来 ， 得 益 于 一 些 自动 化 能 学 习 模型 中 的 特征 。 常 见 的 一 些 特征 表达 网 络 结构 有 强化 学 习 、CNN、Encoder、LSTM 等 。End to End 模 型 将 原 有 的 细 化 模 
块 通过 端 到 端的 深度 学 习 解 决 方案 ， 减 少 了 特征 工程 与 数据 预 处 理 的 繁重 工作 。 


深度 学 习 网 络 结构 灵活 ， 但 其 大 多 是 由 很 多 基本 的 网 络 结构 组 成 而 来 的 ， 分 别 是 多 层 感知 机 (MLP, Multi-Layer Perceptron) 、 卷 积 神经 网 络 (CNN, Convolutional Neural Network) 以 及 循环 
(RNN，Recurrent Neural Network) 。 


MLP 的 结构 特点 是 输入 层 与 输出 层 之 间 存 在 一 个 或 多 个 隐 层 。 输 入 层 用 于 获取 外 部 输入 信号 ， 只 有 隐 层 和 输出 层 的 神经 元 为 计算 节点 。 每 层 都 对 上 一 层 的 输入 进行 加 权 处 理 ， 然 后 通过 激活 函数 进行 非 
线性 变换 ， 参 数 通过 反 向 传播 进行 训练 。 


CNN 最 初 应 用 于 图 像 数据 ， 根 据 图 像 数 据 特 点 进行 近似 与 优化 。 除 了 通用 的 网 络 结构 ，CNN 还 包含 了 几 个 特有 的 网 络 组 件 ， 例 如 ， 卷 积 层 、 池 化 层 、 全 连接 层 等 。 神 经 网 络 参 数 通 过 反 向 传播 算法 进行 
训练 。 


RNN 应 用 于 时 序数 据 ， 例 如 文本 和 语音 数据 ，RNN 针 对 时 序数 据 特点 进行 相应 的 网 络 结构 设计 。RNN 由 多 个 Cell 按 照 时 序 串联 而 成 ， 每 个 Cell 都 可 以 通过 LSTM、GRU 等 进行 实现 。 
3. 深 度 学 习 应 用 
深度 学 习 应 用 比较 广泛 ， 已 经 取得 了 比较 好 的 应 用 效果 的 场景 有 图 像 识 别 、 人 脸 识别 、 图 像 检 测 、OCR、 语 音 识 别 、 强 化 学 习 、 自 然 语 言 处 理 等 。 
4 .深度 学 习 模 型 求解 


深度 学 习 模 型 求解 中 通常 会 涉及 一 些 常用 的 算法 ， 这 些 算 法 分 别 是 遇 到 特定 问题 场景 后 对 原 有 优化 算法 进行 近似 与 优化 ， 整 体 架 构 类 似 梯度 下 降 ， 但 对 步 长 与 梯度 进行 不 同方 式 的 优化 产生 了 不 同 的 变 
种 。 常 用 的 优化 算法 有 SGD、Adam、RMSprop 等 算法 。 


5. 深 度 学 习 模 型 泛 化 


过 拟 合 现象 在 深度 学 习 训 练 过 程 中 是 比较 容易 出 现 的 现象 ， 为 了 解决 过 拟 合 的 问题 ， 通 常 可 以 通过 Dropout、 正 则 化 、Data Augmentation, Batch Normalization 等 方式 进行 解决 。 


1.3.3 ”深度 学 习 向 其 他 行业 与 扩 术 领域 的 延伸 

深度 学 习 最 初 在 互联 网 行业 得 到 了 大 范围 的 应 用 与 技术 提升 ， 随 后 逐步 扩展 深入 到 各 行 各 业 。 接 下 来 我 们 将 通过 深度 学 习 技 术 在 医疗 、 制 造 业 和 安防 等 领域 的 发 展 对 其 进行 了 解 。 
1. 医 疗 

医疗 领域 可 以 获取 的 数据 非常 多 样 ， 常 见 的 有 基因 数据 、 影 像 数据 、 疾 病 诊 断 文 本 数据 等 ， 深 度 学 习 逐 步 在 以 下 几 个 领域 进行 了 延伸 。 

基因 数据 

通过 基因 数据 可 以 对 人 类 的 健康 和 性 格 信息 等 进行 解码 。 传 统 基因 测序 流程 复杂 ， 深 度 学 习 逐 渐 在 基因 分 析 领 域 窑 露 头角 。 

影像 数据 

英 伟 达 也 将 人 工 智能 应 用 到 发 现 新 药物 方面 。 英 伟 达 赁 借 其 技术 ， 利 用 中 心 100 亿 份 医 学 影像 ， 进 行 深度 学 习 训练 开发 ， 用 于 疾病 的 检测 、 诊 断 、 治 疗 等 场景 。 

“ 诊断 文本 数据 

将 自然 语言 处 理 技术 应 用 到 文本 分 析 和 诊断 中 ， 达 到 辅助 医生 进行 诊疗 的 目的 。 


在 医疗 Al 领域 ， 各 个 巨头 也 在 逐步 布局 。1BM Watson 将 人 工 智 能 应 用 到 以 肿瘤 为 重心 ， 包 括 慢 性 病 管 理 、 精 准 医疗 、 体 外 检测 等 九 大 医疗 领域 。 谷 歌 旗下 的 DeepMind 将 用 人 工 智能 研发 医院 支持 系 
统 ， 例 如 床位 和 需求 管理 软件 、 财 务 控制 产品 ， 以 及 面向 初级 医生 的 消息 服务 和 任务 管理 工具 。 百 度 人 工 智能 推出 了 百度 医疗 大 脑 。to( 方 面 ， 百 度 医疗 大 脑 可 以 模拟 医生 问 诊 流程 ， 与 用 户 进行 多 轮 交 
流 ， 依 据 用 户 的 症状 ， 反 复 验证 之 后 给 出 相应 的 建议 ; toB 方 面 ， 则 为 医院 提供 患者 就 诊 过 程 中 的 症状 描述 ， 提 醒 医生 更 多 的 可 能 性 ， 辅 助 基层 医生 完成 问 诊 。 阿 里 云 发 布 了 ET 医疗 大 脑 ， 可 以 在 患者 虚拟 
助理 、 医 学 影像 、 精 准 医疗 、 药 效 挖 气 、 新 药 研 发 、 健 康 管理 等 领域 承担 医生 助手 的 角色 。 


2. 制 造 业 


深度 学 习 的 多 种 技术 都 可 以 应 用 在 制造 业 中 。 例 如 工程 岩 体 的 分 类 ， 目 前 主要 是 有 经 验 的 工程 师 通过 仔细 判断 来 进行 分 类 ， 效 率 比 较 低 ， 并 且 因 为 人 为 原因 会 有 不 同 的 判断 偏差 ， 图 像 识别 技术 可 以 进 
行 辅助 判断 。 对 于 汽车 零 部 件 厂 商 或 汽车 保险 行业 ， 目 前 深度 学 习 技 术 应 用 于 检查 生产 出 的 零件 磨损 种 类 与 等 级 情况 ， 从 而 实现 无 人 化 检测 。 在 工业 生产 车 间 ， 深 度 学 习 技 术 可 以 大 幅 改 善 工业 机 器 人 的 作 
业 性 能 ， 提 升 制造 流程 的 自动 化 和 无 人 化 。 


3. 安 防 
在 现实 生活 中 ， 安 防 系统 已 经 开始 使 用 越 来 越 多 的 摄像 头 以 及 安检 仪 。 这 些 都 为 深度 学 习 企 安防 场景 下 的 潜在 应 用 做 好 了 铺垫 。 
深度 学 习 可 以 应 用 在 安检 仪 、 人 脸 识 别 核 身 、 车 牌 检测 、 目 标 检测 等 多 种 应 用 场景 中 。 


深度 学 习 在 进行 图 像 检 测 和 识别 时 ， 无 须 人 为 设 定 具 体 的 特征 ， 只 需要 准备 好 足够 多 的 图 进行 训练 即 可 ， 通 过 逐 层 的 迭代 就 可 以 获得 较 好 的 结果 。 从 目前 的 应 用 情况 来 看 ， 只 要 加 入 新 数据 ， 并 且 有 充 
足 的 时 间 和 计算 资源 ， 随 着 深度 学 习 网 络 层次 的 增加 ， 识 别 率 就 会 得 到 相应 的 提升 ， 比 传统 方法 的 表现 更 好 。 


14 深度 学 习 工具 与 平台 介绍 


深度 学 习 如 火 如 茶 地 上 发展， 各 种 深度 学 习 框 架 相 继 开源 。 社 区 活跃 并 且 应 用 广泛 的 深度 学 习 工 具 包 括 TensorFlow、Keras、CNTK、Caffe、MXNet 等 。 框 架 之 间 的 用 户 抢夺 愈演愈烈 ， 目 前 较为 火热 的 
是 TensorFlow， 其 在 用 户 和 使 用 范围 上 有 较 大 的 优势 。 开 源 框架 的 流行 程度 由 很 多 因素 共同 决定 。 例 如 ， 开 源 产 品 本 身 优异 的 质量 ， 缘 后 企业 成 熟 的 社区 运作 ， 快 速 的 迭代 更 新 ,活跃 的 社区 和 反馈 ,最终 
形成 良性 循环 。 


1.TensorFlow 


TensorFlow 是 Google 推 出 的 深度 学 习 框架 ，TensorFlow 的 用 户 可 以 快速 设计 深度 学 习 网 络 ， 将 底层 细节 进行 抽象 ， 而 不 用 耗费 大 量 时 间 编 写 底层 CUDA 或 C++ 代 码 。 


实现 特点 : TensorFlow 支 持 自动 求 导 ， 用 户 可 以 方便 设计 新 的 损失 函数 ， 并 进行 求解 。TensorFlow 内 核 通 过 C+ + 进行 开发 ， 有 较 好 的 性 能 保证 。 为 了 兼容 用 户 和 降低 学 习 曲 线 ，TensorFlow 也 提供 了 
Java、Python 和 Go 的 接口 。 本 书后 续 内 容 将 会 调用 TensorFlow Python 接口 进行 讲解 。 


高 层 接口 支持 : 随 着 社区 的 发 展 以 及 TensorFlow 内 部 的 支持 ， 为 了 提升 开发 人 员 的 生产 力 ，TensorFlow 逐 步 形成 了 一 些 高 层 的 编程 接口 ， 如 内 置 的 TF.Learn 和 TF.Slim， 这 样 用户 可 以 更 加 简洁 快速 地 
设计 和 实验 新 的 深度 神经 网 络 结构 。 在 Python 接口 方面 也 兼容 Scikit-learn 的 estimator 接 口 ， 这 样 用 户 可 以 通过 scikit-learn 完 成 参数 搜索 、 交 叉 验 证 等 机 器 学 习 流 水 线 中 的 较为 重要 的 环节 。 


平台 支持 : 在 TensorFlow 的 底层 也 可 以 基于 CPU 或 者 GPU 进行 模型 训练 ， 在 单 CPU 的 条 件 下 ， 大 多 数 的 深度 学 习 框 架 都 依赖 于 cuDNN。 对 于 大 规模 数据 的 深度 学 习 ， 大 数据 量 使 得 单机 CPU 的 训练 难 
以 完成 ， 需 要 分 布 式 GPU 集群 来 进行 并 行 计算 。 


官网 链接 : https://www.tensorflow.org/. 
2.CNTK 


CNTK 是 微软 开源 的 深度 学 习 框架 ， 是 最 早 支 撑 语 音 识别 的 深度 学 习 应 用 。 它 将 神经 网 络 描述 成 在 有 向 图 上 的 一 系列 计算 步骤 。 在 这 个 有 向 图 中 ， 叶 子 结 点 表示 输入 层 或 网 络 参 数 ， 其 他 的 结 点 则 表示 


成 在 输入 层 上 的 和 矩阵 操作 。CNTK 是 微软 在 Cortana 数 字 助 理 和 Skype 翻 译 应 用 中 使 用 的 语音 识别 的 系统 框架 。 


模型 支撑 : 在 CNTK 上 可 以 很 容易 地 实现 及 结合 当今 流行 的 模型 ， 例 如 前 馈 神 经 网 络 (DNN) 、 卷 积 神经 网 络 (CNN) 、 循 环 神经 网 络 (RNN/LSTM) 。 在 实现 随机 梯度 下 降 学 习 时 能 够 自动 计算 梯 
E. 


设备 支持 : CNTK 还 能 通过 多 个 GPU 或 服务 器 实现 并 行 计 算 。 
官网 : https://docs.microsoft.com/en-us/cognitive-toolkit/, 


3.Caffe2 


Caffe2 是 一 个 应 用 广泛 的 深度 学 习 框架 ， 在 TensorFlow 发 布 之 前 其 一 直 是 深度 学 习 领域 最 为 火热 的 项 目 。 


Caffe2 的 核心 概念 是 Layer， 在 深度 神经 网 络 中 ， 每 个 模块 都 是 一 个 Layer。Layer 接 收 输入 的 向 量化 数据 ， 经 过 计算 后 输出 数据 ，Layer 之 间 的 组 合 与 串联 形成 了 复杂 的 深度 学 习 网 络 结构 。 每 个 Layer 都 
要 定义 两 种 运算 : 正 向 运算 和 反 向 传播 算法 。 


Caffe2 的 优势 具体 如 下 。 


接口 简洁 : 容易 上 手 ， 设 计 和 书写 网 络 均 可 通过 配置 文件 的 形式 进行 定义 。 训 练 速度 快 ， 底 层 通 过 cuDNN 使 用 GPU 加 速 网 络 训练 。 项 目 结构 (清晰 ) 且 成 模块 化 ， 能 较 快 拓展 到 新 的 模型 和 学 习 任 务 
a 


Model Zoo: Caffe2 拥 有 大 量 己 训练 好 的 经 典 模型 (AlexNet、VGG、lnception， 等 ) ， 收 藏 在 Model Zoo 中 (github.com/BVLC/caffe/wiki/Model-Zoo) 。 在 计算 机 视觉 领域 ，Caffe2 的 应 用 较 
为 广泛 ， 可 以 用 来 做 图 片 分 类 、 位 置 检测 、 人 脸 识别 等 。 


官网 链接 : https://caffe2.ai/, 
4.MXNet 
MXNet 是 DMLC 推 出 的 一 款 开源 的 深度 学 习 框 架 ， 是 亚马逊 AWS 主 推 的 一 款 深度 学 习 框 架 ，AWS 官 方 推 荐 使 用 MXNet 进 行 深度 学 习 编 程 。 
接口 支持 : 通过 MXNet 的 命令 式 和 符号 式 进 行 编程 ， 可 以 使 得 效率 和 灵活 性 达到 最 大 化 。 上 层 接口 支持 C++、Python、R、Julia、Go 等 语言 ， 应 用 非常 广泛 。 
设备 支持 : MXNet 的 核心 组 件 是 动态 的 依赖 调度 器 ， 能 将 计算 任务 并 行 到 多 GPU 或 者 分 布 式 集群 上 。 
官网 链接 : https://mxnet.apache.org/。 
5.Pytorch 


Torch 是 运行 在 LuaJIT 上 的 高 效 科学 计算 库 ， 可 以 进行 深度 学 习 网 络 的 训练 和 推断 。Torch 创 建 较 早 ， 在 Facebook 开 源深 度 学 习 组 件 之 后 ，Torch 得 到 了 广泛 的 应 用 。Torch 底 层 通 过 C+ + 开发 ， 上 层 通 
过 Lua 脚 本 语言 进行 调用 。PyTorch 运 行 在 GPU 或 CPU 之 上 ， 其 具有 基础 的 张 量 操作 库 ， 内 置 的 神经 网 络 库 ， 模 型 训练 功能 ， 支 持 共 享 内 存 的 多 进程 并 发 库 。 


模型 支持 : 包含 大 量 的 机 器 学 习 、 计 算 机 视觉 、 视 频 、 音 频 、 语 音 处 理 的 库 。 
设备 支持 : 支持 设计 复杂 的 深度 学 习 网 络 拓扑 结构 ， 并 且 可 以 并 行 化 到 CPU 和 GPU 上 。 


官网 链接 : http://pytorch.org/. 


深度 学 习 技 术 发 展 迅 速 ， 深 度 学 习 框架 层出不穷 。 为 了 方便 算法 工程 师 使 用 各 类 深度 学 习 技术 ， 减 少 繁杂 的 诸如 运行 环境 部 署 运 维 等 工作 ， 提 升 CPU 等 硬件 资源 的 利用 率 ， 节 省 硬件 投入 成 本 ， 对 下 我 
们 需要 通过 Al 基础 平台 管理 GPU 服务 器 集群 ， 对 上 提供 深度 学 习作 业 管理 和 监控 。 


1.PAI 
PAI (Platform for Al) 是 一 个 由 微软 开源 的 、 为 人 工 智能 作业 设计 的 集群 管理 系统 和 资源 调度 平台 。 系 统 吸收 了 微软 内 部 深度 学 习 平 台 等 成 熟 的 设计 经 验 ， 为 深度 学 习 产 品 应 用 或 研究 提供 了 支持 。 
PAIl 具 有 以 下 几 个 特点 。 
* 支持 AI 作业 ， 在 GPU 集群 上 运行 深度 学 习作 业 ， 支 持 常 用 的 主流 深度 学 习 框架 。 扩 展 性 较 好 ， 提 供 的 接口 便于 用 户 在 集群 上 运行 扩展 新 的 框架 。 
. 支持 针对 GPU 资源 的 调度 优化 ， 提 供 丰 富 的 监控 指标 ， 方 便 用 户 诊断 间 题 和 运 维 集群 。 
“ 吸收 微服 务 的 思想 ， 内 部 服务 组 件 和 作业 都 包装 为 Docket 容 器 ， 通 过 HDFS 共 享 训练 数据 ， 训 练 中 间 结 果 及 模型 。 
Github 链 接 : https://github.com/Microsoft/pai, 


如 图 1-6 所 示 ，PAI 架 构 采用 和 集成 主流 集群 管理 系统 和 深度 学 习 框架 。 


Q | Web Portal _ Fortal LJ Other AI Job Big Data Job 

3 Party 
D Aa REST Server Launcher M LauncherAM LauncherAM 
Managed Launcher Server HDES Hadoop YARN-+AI 


by k8s 


Kubernetes Cluster Management 
Managed by anag 












YARN+AI Docker/Ubuntu 


图 1-6 PAI 基础 架构 
2.XLearning 
奇 虎 360 系 统 部 大 数据 团队 与 人 工 智能 研究 院 联 合 开 发 了 深度 学 习 调 度 平台 一 一 XLearning.。 


XLearning 平 台 将 大 数据 与 深度 学 习 相 融合 ， 基 于 Hadoop Yarn 完 成 了 对 Tensor-Flow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost 等 常用 深度 学 习 框 架 的 集成 ， 是 典型 的 “Al on 
Hadoop” 的 实现 。XLearning 从 2017 年 4 月 份 正式 开发 上 线 运 行 ， 经 过 多 个 版 本 的 迭代 更 新 ， 为 各 学 习 框 架 的 使 用 者 提供 了 统一 、 稳 定 的 调度 平台 ， 实 现 了 资源 共 
良好 的 可 扩展 性 和 兼容 性 。 目 前 已 经 在 公司 搜索 、 人 工 智 能 研究 院 、 商 业 化 、 数 据 中 心 等 业务 部 门 广泛 使 用 。 
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官网 链接 : https://github.com/Qihoo360/XLearning, 


1.4.3 ”深度 学 习 开 发 工具 


在 深度 学 习 和 机 器 学 习 的 开发 与 测试 过 程 中 ， 用 户 疲 于 在 多 种 框架 之 间 进 行 切换 ， 可 以 通过 下 面 的 工具 进行 一 站 式 ,深度 学 习 的 开发 。 


Visual Studio Tools For Al & Visual Studio Code Tools For AI 


微软 发 布 了 Visual Studio Tools for Al， 包 含 了 基于 Visual Studio 的 插件 和 基于 Visual Studio Code 的 跨 平台 的 插件 ， 这 是 微软 Visual Studio 2017 IDE 的 扩展 ， 可 以 让 开发 人 员 和 数据 科学 家 将 深度 
学 习 模型 嵌入 到 应 用 程序 中 。 


Visual Studio Tools for Al 工具 支持 CNTK、TensorFlow、Caffe2 等 多 种 框架 的 开发 。 
微软 还 通过 一 个 称 为 Visual Studio Code Tools for Al 的 跨 平台 扩展 为 其 Visual Studio 代 码 编辑 器 提供 Al 支持 。 
同时 为 物 联网 设备 和 Azure 云 平台 等 基础 架构 进行 相应 的 集成 ， 以 便于 用 户 将 本 地 测试 与 平台 运行 训练 集成 到 一 套 流水 线 中 。 


官网 链接 : https://www.visualstudio.com/downloads/ai-tools-vs/, 


在 深度 学 习 或 迁移 学 习 的 过 程 中 ， 我 们 可 能 会 遇 到 多 框架 模型 之 间 的 转换 问题 ， 以 及 用 户 想 可 视 化 相应 的 模型 。 我 们 可 以 通过 MMdnn 工 具 进 行 相应 的 支持 。 


MMdnn 是 一 套 工 具 集 ， 可 以 帮助 用 户 在 不 同 的 深度 学 习 框 架 之 间 进 行 协同 开发 。 其 包含 深度 学 习 模 型 转换 、 模 型 可 视 化 等 辅助 深度 学 习 开发 的 一 系列 工具 。MMdnn 现 支持 Caffe、Keras、MXNet、 
TensorFlow、CNTK、PyTorch 和 CoreML 模 型 之 间 的 转换 。 


官网 链接 : https://github.com/Microsoft/MMdnn, 


145 “深度 学 习 云 平台 服务 


随 着 越 来 越 多 的 公司 将 基础 架构 迁移 到 云 平 台 ， 越 来 越 多 的 深度 学 习 开发 人 员 也 在 基于 云 平 台 进 行 相应 的 服务 开发 。 我 们 以 微软 Azure 为 例 介绍 其 提供 的 基本 深度 学 习 服 务 。 
微软 Azure 
Azure 是 微软 提供 的 公有 云 平 台 ， 其 提供 了 深度 学 习 从 下 到 上 的 一 系列 服务 。 


(1) GPU 虚 拟 机 


Azure 提 供 了 多 种 类 型 针对 GPU 进行 优化 的 虚拟 机 ， 其 上 挂 载 了 单个 或 多 个 英 伟 达 GPU。 其 中 NC、NCv2 和 ND 系 列 虚拟 机 是 针对 计算 密集 型 和 网 络 密集 型 应 用 进行 相应 优化 的 虚拟 机 ， 适 用 于 深度 学 习 
和 人 工 智能 的 应 用 。 具 体型 号 和 配置 可 以 参考 下 面 的 链接 查询 。 


参考 链接 : https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-gpu, 


(2) 模型 训练 服务 
Azure Batch Al 是 Azure Batch 针 对 深度 学 习 训练 的 一 种 服务 。 其 底层 用 于 管理 GPU 虚拟 机 ， 对 用 户 提供 作业 提交 接口 ， 并 进行 训练 作业 管理 。 
官网 链接 : https://azure.microsoft.com/en-us/services/batch-ai/, 

(3) 模型 管理 与 部 团 


当 用 户 训练 好 模型 ， 后 续 的 版 本 管理 、 部 署 、 追 踪 、 更 新 等 都 是 产品 化 的 人 工 智能 流水 线 非常 需要 的 。Azure 机 器 学 习 模型 管理 服务 ， 使 得 用 户 可 以 管理 和 部 署 机 器 学 习 的 模型 。 其 提供 的 功能 具体 如 
下; 


` 模型 版 本 管理 

+ 产品 模型 跟踪 

. 模型 部 署 

“ 本 地 模型 测试 

自动 重 训练 模型 
官网 链接 : https://docs.microsoft.com/en-us/azure/machine-learning/preview/model-ma-n-a-g-ement-overview, 


(4) 深度 学 习 应 用 API 


微软 认 知 服务 (Microsoft Cognitive Services) 集合 了 多 种 智能 API 以 及 知识 API。 服 务 集合 了 多 种 来 自 Bing、 前 “牛津 计划 ”等 项 目的 智能 API。 应 用 了 这 些 API 的 系统 可 以 让 开发 者 集成 大 公司 领先 
的 模型 和 Al 能 力 ， 能 够 更 加 快速 方便 地 构建 和 使 用 深度 学 习 技术 的 应 用 。 


“ 图 像 

支持 智能 表 标 识 图 像 、 描 述 图 像 、 人 脸 识 别 等 。 
.自然 语言 

支持 自然 语言 处 理 、 情 感 分 析 等 。 

语音 

支持 语音 识别 等 。 

. 知识 
支持 语义 搜索 、 实 体 链接 、 推 荐 等 。 

搜索 
可 以 调用 Bing 搜 索 的 APl， 支 撑 搜 索 场景 。 


官网 链接 : https://www.msra.cn/zh-cn/research/cognitive-services, 


1.5 本 童 小结 


1E 
“a 


习 基 础 技术 和 应 用 技 


本 章 首先 介绍 了 什么 是 深度 学 习 ， 之 后 介绍 了 深度 学 习 的 适用 领域 ,使 得 读者 首先 能 够 对 整个 深度 学 习 有 一 个 全 面 的 了 解 。 接 下 来 逐 学 
T 深度 学 习 的 底层 支撑 技术 


深 
术 的 发 展 ， 使 得 读者 可 以 快速 了 解 深度 学 习 技术 的 前 沿 。 为 了 能 够 让 读者 建立 深度 学 习 整 体 的 知识 树 和 体系 化 的 知识 结构 ， 本 章 还 介绍 


深入 介绍 深度 学 习 技 术 的 发 展 ， 以 及 深度 
T 
和 框架 。 


深 
深度 学 习 的 知识 图 谱 。 本 章 的 最 后 介绍 


深度 学 习 的 算法 原理 ， 以 及 经 典 的 网 络 结构 CNN、RNN 分 别 是 什么 ? 读者 可 以 通过 后 续 章节 一 探究 竟 。 


1.6 参考 资料 


- PAI 链 接 : https://github.com/Microsoft/pai。 


“ 微软 Azure 链 接 : https://azure.microsoft.como 
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章 将 介绍 深度 学 习 技术 的 基本 概念 组 件 以 及 其 中 会 涉及 的 技术 要 点 ， 同 时 结合 CNN、RNN 等 经 典 深度 神经 网 络 结构 进行 介绍 
深度 神经 网 络 涉及 的 组 件 较 多 ， 本 章 将 结合 各 个 组 件 的 不 同 ， 结 合 网 络 结构 对 各 个 组 件 逐 一 进行 理解 ， 这 有 助 于 较 快 理解 和 掌握 深度 学 习 中 涉及 的 技术 点 。 


本 章 将 涉及 感知 器 、 激 活 函 数 、 多 分 类 器 等 基本 深度 神经 网 络 组 件 ， 也 会 涉及 CNN 中 的 卷 积 层 、 池 化 层 等 结构 以 及 RNN 中 的 LSTM 等 基本 结构 ， 最 后 还 将 介绍 经 典 的 优化 算法 。 


2.1 深度 学 习 基础 


正在 不 断 取得 新 的 突破 。 
传统 机 器 学 习 的 处 理 方法 一 般 需要 进行 大 量 的 特征 工程 ， 利 用 预 处理 之 后 的 数据 训练 一 个 模型 ， 进 而 完成 分 类 或 回归 等 问题 。 相 比 而 言 ， 深 度 学 习 可 以 通过 各 种 可 训练 的 层 ， 我 们 也 可 以 将 其 看 作 是 特 
征 提 取 器 ， 进 而 蔡 代 人 工 进 行 特征 工程 ， 达 到 自动 化 和 提升 机 器 学 习 的 过 程 。 同 时 深度 学 习 通 过 多 层 非 线性 变换 和 组 合 ， 得 到 了 更 加 有 效 的 特征 表示 ， 获 得 了 更 强 的 模型 拟 合 能 力 。 


深度 学 习 相 比 较 于 传统 人 工 神经 网 络 算法 ， 包 含 了 以 下 一 些 不 同 之 处 。 第 一 是 深度 神经 网 络 隐藏 层 层 数 更 多 。 一 般 可 以 认为 3 个 隐藏 层 以 上 就 是 一 种 深度 学 习 结 构 ， 但 是 会 引起 参数 爆炸 造成 模型 时 间 与 
悉 惧 复杂 度 无 法 接受 ， 为 了 解决 这 个 问题 ， 研 发 人 员 结合 不 同 数据 的 特点 设计 了 一 些 优化 的 网 络 组 件 ， 进 而 有 了 第 二 点 的 设计 。 第 二 是 针对 图 像 、 文 本 等 数据 设计 了 相应 的 优化 的 网 络 结构 ， 例 如 卷 积 层 、 
池 化 层 等 ， 其 大 大 减少 了 计算 量 与 自由 参数 数量 ， 提 升 了 计算 速度 。 第 三 是 由 于 深度 神经 网 络 层 数 增多 ， 相 当 于 在 参数 一 定 的 情况 下 ， 能 够 获得 更 多 的 参数 组 合 ， 相 比 于 单纯 提升 单 隐藏 层 参数 的 神经 网 络 
参数 其 有 更 强 的 模型 拟 合 能 力 。 


我 们 可 以 通过 图 2-1 对 比 不 同 的 机 器 学 习 方式 ， 了 解 其 中 的 共性 与 差异 。 
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图 2-1 机 器 学 习 与 深度 学 
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图 2-1 显 示 了 不 同 AI 方 式 的 对 比 区 别 ， 基 于 规则 的 系统 、 传 统 机 器 学 习 系统 、 表 征 学 习 系 统 和 深度 学 习 系 统 。 从 图 2-1 中 可 以 看 到 从 左 到 右 ， 自 动 化 学 习 所 占 的 比重 越 来 越 高 ， 人 工 编 程 或 设计 特征 的 工 


作 越 来 越 少 。 


同时 我 们 还 可 以 看 到 ， 


阴影 框 表示 能 够 从 数据 中 自动 学 习 的 组 件 (模型 或 深度 学 习 中 的 层 等 


[1] 图 2-1 来 源 : http://www.deeplearningbook.org/contents/intro.html。 


深度 学 习 之 所 以 深 的 原因 是 模型 将 特征 工程 和 模型 融合 在 一 起 了 。 


2.1.1 感知 器 
理解 深度 神经 网 络 ， 应 该 先 理解 神经 网 络 的 基本 组 成 单元 一 一 神经 元 。 神 经 元 模型 产生 于 感知 器 (Perceptron) 模型 ， 这 个 


模型 


是 神经 网 络 具 有 代表 性 的 模型 


。 如 图 2-2 所 示 的 即 为 感知 器 模型 





图 2-2 ”感知 器 


如 图 2-2 所 示 ， 感 知 器 包含 以 下 几 个 组 成 部 分 。 





权重 求 和 


求 和 





阶 跃 函数 











Sigmoid | 


输入 和 权 值 : 图 2-2 中 的 input 代 表 输入 ，weight 代 表 权 重 。 一 个 感知 器 可 以 接收 多 个 输入 ， 然 后 将 每 个 输入 乘 以 权 值 ， 并 求 和 (图 2-2 中 的 sum) ， 最 后 传 到 下 一 步 计 算 。 


激活 函数 : 图 2-2 中 的 activation function 位 置 代表 激活 函数 ， 感 知 器 的 激活 函数 可 以 有 很 多 选择 ， 例 如 Sigmoid、ReLU 函 数 等 。 图 2-2 中 使 用 阶 跃 函数 作为 例子 。 


输出 : 将 激活 函数 的 输出 作为 感知 器 的 输出 。 


2.1.2 ”激活 函数 


激活 函数 设计 的 初 囊 是 能 够 向 神经 网 络 加 入 非 线 性 因素 ， 使 得 神经 网 络 可 以 更 好 地 拟 合 复杂 问题 。 


Sigmoid 函 数 曾 广泛 地 应 用 于 全 连接 神经 网 络 中 ， 其 公式 形式 以 及 优 缺 点 简介 如 下 : 


] 
JD =a 


l+e` 


RY: 导数 计算 简单 ， 梯 度 下 降 更 加 容易 实现 与 计算 。 


随 着 深度 学 习 的 发 展 ， 越 来 越 多 的 激活 函数 将 被 设计 出 来 。 


(2.1) 


(BR: HA2-3Pp RM Sigmoid BAILII TARE, AREPAN, BAARAK, 当 远 离 0 的 两 侧 取 值 时 ， 斜 率 趋 近 于 0， 容 易 发 生 梯度 消失 ， 选 代 算 法 的 收敛 速度 很 慢 ， 有 些 情 况 下 甚至 


不 会 收 化 。 同 时 其 输出 均值 不 为 0， 这 也 是 其 劣势 所 在 。 


图 2-3 Sigmoid 函 数 几 何 图 形 


为 了 弥补 sigmoid 等 激活 函数 计算 梯度 时 产生 的 问题 ， 更 多 的 激活 函数 被 设计 了 出 来 ， 由 图 2-4 中 ， 我 们 可 以 看 到 几 种 激活 函数 的 几何 形状 对 比 。 
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图 2-4 Sigmod 函 数 几 何 图 形 


Ln 


ReLU (Rectified Liner Units) 是 一 种 效果 更 好 、 收 敛 更 快 的 激活 函数 。 函 数 如 下 : 


F(x) = max(0, x) (2.2 ) 


ReLU 的 取 值 范围 为 [0，co]， 这 样 ReLU 就 可 以 将 取 值 变换 到 整个 正 数 范围 ， 这 会 导致 训练 过 程 中 数值 无 限 增长 的 问题 ， 而 Sigmod 只 能 是 [0，1]。 


ReLU 能 够 缓解 梯度 消失 的 问题 。Sigmoid 的 导数 只 有 在 0 附近 的 时 候 才 有 比较 好 的 激活 性 ， 在 正 负 饱和 区 其 梯度 都 接近 于 0， 所 以 这 会 造成 梯度 弥散 ， 而 ReLU 函 数 的 梯度 在 大 于 0 的 部 分 为 常数 ， 所 以 不 
会 产生 梯度 消失 现象 。Relu 函 数 在 参数 为 负数 时 的 导数 为 0， 所 以 一 旦 神经 元 激活 值 为 负 ， 那 么 梯度 就 会 为 0， 从 而 这 个 神经 元 不 会 经 历 训练 ， 也 就 是 我 们 所 说 的 稀疏 性 。 


ReLU 函 数 的 导数 计算 更 快 ， 程 序 实现 就 是 一 个 f-else 条 件 判 断 语 句 ， 而 Sigmoid 函 数 需要 进行 浮 点 运算 。 虽 然 程序 分 支 结构 并 不 是 推荐 的 结构 ， 但 是 由 于 e 指 数 计算 复杂 ， 因 此 实际 上 修正 线性 函数 是 
更 加 快速 的 选择 。 


AlexNet 的 论文 中 证 明 ， 对 于 相同 的 网 络 结 构 ，ReLU 为 激活 函数 ， 收 敛 速 度 相 比 Tanh 快 6 倍 以 上 。 


由 于 以 上 的 优点 ，ReLU 成 为 了 现 有 大 部 分 CNN 首 选 的 的 激活 函数 。 


2.1.3 输入 层 、 隐 藏 层 、 输 出 层 


神经 网 络 结构 如 图 2-5 所 示 。 


tii AC Se Pa te 层 
Layer L1 Layer L2 










答 出 层 
Layer L3 








图 2-5 ”神经 网 络 结构 


将 多 个 相同 的 神经 元 组 织 成 层 ， 并 且 多 个 层 之 间 还 可 以 组 合成 深度 学 习 的 网 络 结构 。 图 2-5 中 的 每 个 圆圈 都 是 一 个 神经 元 ， 每 条 边 表示 两 个 神经 元 之 间 的 连接 ， 边 上 带 有 权重 。 神 经 元 被 分 成 了 多 层 ， 层 
与 层 之 间 的 感知 器 有 边 进行 连接 ， 但 是 在 一 般 情况 下 ， 层 内 之 间 的 神经 元 是 没有 边 进行 连接 的 。 最 左边 的 层 (Layer L1) 称 为 输入 层 ， 输 入 层 接收 传 入 神经 网 络 的 输入 数据 ; 最 右边 的 层 (Layer L3) 是 输 


出 层 ， 负 责 输出 预测 结果 。 输 入 层 和 输出 层 之 间 的 层 称 为 隐藏 层 (Layer L2) ， 隐 藏 层 可 以 有 多 个 。 


有 很 多 隐藏 层 的 神经 网 络 称 为 深度 神经 网 络 。 


2.1.4 ”前 同 传播 与 反 向 传播 求 导 


如 图 2-6 所 示 的 为 一 个 最 为 简化 的 前 向 传播 与 反 向 传播 的 过 程 ， 其 过 程 可 以 推广 到 更 为 复杂 的 深度 学 习 网 络 结构 。 图 2-6a 所 示 的 为 前 向 传播 的 过 程 ， 使 用 x，y 作 为 输入 ， 通 过 激活 函数 f 作 用 产生 输出 z。 
图 2-6b 展 示 的 为 反 向 传播 的 过 程 。L 代 表 损 失 函 数 ， 其 接收 预测 值 输出 z 和 样本 的 真实 值 ， 用 于 求 损失 函数 对 x 的 导数 ， 和 损失 函数 对 y 的 导数 。 由 于 L 和 x 之 间 有 函数 的 肉 套 ， 因 此 我 们 可 以 通过 链 式 法 则 ， 逐 
层 进行 导数 的 求解 ， 如 图 2-6b 所 示 ，dL/dx=dL/dzxdz/dx， 同 理 ， 通 过 链 式 法 则 可 以 求解 [对 y 的 导数 。 对 应 神经 网 络 结构 ，x 和 y 经 常 表示 为 w 权 重 ， 求 解 的 原理 也 相同 [ 


反 向 传播 


前 向 传播 





a) 
图 2-6 ”前 向 传播 与 反 向 传播 


[1] 参考 链接 : https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalizationlayer.html. 


责 。 通 过 深度 学 习 CNN 


2.2 CNN 
构 之 一 ， 其 在 计算 机 视觉 问题 中 的 应 用 取得 了 非常 好 的 效果 ， 并 且 在 ImageNet、Coco 等 竞赛 数据 集 上 取得 了 不 俗 的 成 绩 


卷 积 神经 网 络 (CNN) 是 深度 学 习 技 术 中 重要 的 网 络 结 
的 处 理 方式 ， 我 们 可 以 发 现 CNN 相 比 于 图 像 处 理 算法 的 优点 在 于 ，CNN 可 以 直接 输入 原始 图 像 ， 这 就 避免 了 对 图 像 复 杂 的 前 期 预 处 理 与 特征 工程 。 同 时 CNN 相 较 于 传统 的 神经 网 络 全 连接 的 方式 ， 规 避 了 
CNN 可 以 通过 局 部 连接 、 权 值 共 享 等 方法 进行 优化 ， 提 升 计算 速度 并 节省 空间 占用 。 
图 片 被 识别 不 仅仅 取决 于 图 片 本 身 ， 还 取决 于 图 片 是 如 何 被 观察 也 就 是 如 何 进行 特征 的 提取 。CNN 的 设计 初衷 也 是 来 源 于 人 类 对 视觉 信息 的 识别 过 程 。 例 
CNN 会 尽 可 能 地 寻找 最 能 解释 训练 数据 的 特征 提取 方式 。 


产生 的 参数 量 过 大 的 问题 ， 
程 相 比 于 传统 机 器 学 习 来 说 是 自动 化 的 。 


例如 ，CNN 处 理 图 像 识别 这 个 典型 的 问题 
如 ， 人 脸 识别 中 经 过 层 层 的 卷 积 之 后 ， 所 能 够 学 习 和 提取 的 特征 形状 、 概 念 也 变 得 越 来 越 抽 象 和 复杂 ， 


CNN 图 像 处 理 的 过 程 就 是 在 进行 信息 抽取 ， 巨 大 的 网 络 可 以 逐 层 进行 抽取 并 不 断 获 取 关 键 的 图 像 特征 ， 同 时 整个 过 


2.2.1 ”前 馈 网 络 解决 图 像 存 在 的 问题 
则 会 造成 模型 只 对 中 间 位 置 的 节点 的 权重 进行 调节 。 如 果 物 体位 于 其 他 位 置 ， 则 模型 将 会 无 法 进行 识别 。 
合 能 力 。 


如 果 训 练 前 馈 神 经 网 络 ， 使 用 物体 位 于 中 间 的 数据 训练 模型 
可 以 构建 大 量 物体 位 于 不 同位 置 的 数据 ， 对 模型 进行 训练 ， 同 时 还 需要 增加 网 络 层 数 ， 提 高 模型 拟 
侧 的 物体 也 好 ， 还 是 右 侧 相同 的 物体 也 罢 ， 大 家 都 是 形 


为 了 解决 各 个 位 置 的 物体 识别 问题 ， 


减少 扩充 数据 集 等 代价 ， 将 学 习 到 的 物体 规律 扩展 到 图 像 的 其 他 位 置 ， 进 而 不 同位 置 共享 相同 的 权重 ? 因为 不 管 是 


那么 是 否 有 办 法 优化 模型 ， 
状 相同 的 物体 。 
深度 学 习 CNN 通 过 卷 积 层 和 池 化 层 可 以 将 不 同位 置 的 特征 都 提取 出 来 ， 进 而 消除 前 馈 神 经 网 络 对 位 置 的 依赖 性 ， 进 而 大 大 提升 了 模型 的 效率 ， 减 少 构建 数据 集 的 开销 。 


接 下 来 的 几 个 章节 将 介绍 卷 积 神经 网 络 的 基本 组 件 。 


池 化 层 、Flatten 层 、 全 连接 


2.2.2 “ 卷 积 伸 经 网 络 
如 图 2-7 所 示 的 是 CNN 的 通用 结构 ，CNN 通 用 结构 可 能 包含 图 中 所 示 的 一 些 组 件 ， 组 件 个 数 和 排 布 方式 由 具体 模型 和 试用 数据 及 应 用 场景 确定 。CNN 中 可 能 包含 卷 积 层 
ab 卖 


A6 
构 ， 具 体 每 种 网 络 结构 的 作用 ， 我 们 可 以 在 后 续 的 章节 中 进行 详细 介绍 。 首 先 我 们 需要 了 人 解 图 像 的 几 个 不 变性 ， 进 而 才能 理解 后 续 各 个 组 件 的 设计 初衷 。 
te 
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图 2-7 CNN 通 用 结构 叫 


[1] 图 2-7 的 来 源 : https://es.mathworks.com/discovery/convolutional-neural-network.html o 


2.2.3 图 像 的 几 个 不 变性 


2.2.1 节 前 馈 神 经 网 络 解决 图 像 的 问题 中 ， 我 们 可 以 了 解 到 位 置 不 变性 造成 模型 需要 增加 训练 数据 和 提高 拟 合 能 力 的 问题 ， 图 像 中 其 实 还 存在 其 他 类 型 的 不 变性 问题 ， 如 图 2-8 所 示 。 而 我 们 希望 模型 对 
同样 的 物体 ， 不 管 是 位 置 不 同 ， 分 辩 率 不 同 ， 还 是 放置 方向 不 同等 情况 都 能 将 其 准确 地 识别 出 来 。 


平移 不 变性 





旋转 | ULI AN BEE 





图 2-8 ”图像 数据 不 变性 


我 们 希望 所 建立 的 网 络 能 够 尽 可 能 地 满足 这 些 不 变性 特点 。 一 般 的 思路 是 通过 数据 增强 或 优化 模型 结构 来 解决 相应 问题 。 
. 平移 不 变性 (Translation Invariance) 

解决 : 卷 积 层 、 权 值 共 享 、 池 化 层 。 

. 旋转 视角 不 变性 (Rotation/Viewpoint Invariance) 

解决 : 数据 增强 ， 对 数据 进行 旋转 Rotation。 卷 积 层 和 池 化 层 。 

. 尺寸 不 变性 (Size Invariance) 


解决 : Inception。 


2.24 iA 
卷 积 层 是 CNN 中 的 重要 的 组 件 ， 它 不 仪 能够 通过 各 种 卷 积 核 提 取 图 像 特征 ， 还 能 够 通过 卷 积 优化 传统 全 连接 层 的 计算 量 。 


1. 基 本 结构 

如 果 使 用 过 图 像 处 理 软件 Photoshop， 就 会 发 现 其 内 部 有 一 些 滤 镜 ， 例 如 锐 化 、 模 糊 、 高 反差 识别 等 ， 它 们 会 用 一 个 憩 阵 来 处 理 图 像 的 每 个 小 片 ， 进 而 得 到 一 个 画面 的 转换 ，CNN 的 卷 积 计算 正 是 通过 
类 似 于 这 种 方式 进行 的 特征 提取 。 例 如 ，PSs 中 的 低 通 滤 镜 通常 可 以 用 来 降 噪 ， 高 通 滤 镜 可 以 得 到 图 像 的 细微 纹理 。 之 所 以 通过 这 样 的 方式 也 是 因为 图 像 的 特征 大 多 存在 于 相 邻 像素 之 间 ， 对 应 到 CNN 的 卷 积 
核 就 是 ， 通 过 计算 小 区 域内 像素 之 间 的 关系 进而 来 提取 局 部 特征 。 


输入 图 像 ， 在 深度 方向 上 由 很 多 个 slice 组 成 ， 对 于 其 中 一 个 slice， 可 以 对 应 很 多 神经 元 ， 神 经 元 的 权重 参数 (weight) 表现 为 卷 积 核 的 形式 ， 即 一 个 方形 的 滤波 器 (filter) ” (如 图 2-9 或 图 2-10 中 的 
3x3 部 分) ， 这 些 神 经 元 各 自分 别 对 应 图 像 中 的 某 一 个 局 部 区 域 (local region) ， 用 于 提取 该 区 域 的 特征 。 





图 2-9 AFR 


如 图 2-9 所 示 ， 图 像 为 5?x 5 像素 ， 卷 积 核 为 3x3， 滤 波 器 不 断 作 用 于 局 部 图 像 ， 将 滤波 器 与 局 部 图 像 进行 乘法 运算 之 后 求 和 ， 人 生成 输出 的 特征 图 (FeatureMap) 的 每 一 个 元 素 。 不 断 以 一 定 的 步 长 
(stride) 滑动 卷 积 核 最 终 形成 图 2-9 中 的 结果 ， 本 图 步 长 为 1。 


由 图 2-10 可 知 ， 卷 积 作用 完 之 后 的 输出 图 像 大 小 发 生 了 变化 ， 如 果 想 保持 图 像 大 小 不 变 ， 那 么 可 以 使 用 padding 使 前 后 的 图 像 尺寸 保持 相同 ， 可 以 保持 边界 的 信息 。padding 填 充 输入 图 像 的 边界 ,一 
般 填充 0 (Zero Padding) ，padding 的 大 小 为 P= (F-1) /2， 其 中 F 为 filter 的 尺寸 。 





图 2-10 ARAR 
有 些 物 体检 测 CNN 的 论文 ， 提 出 了 感受 野 (receptive field) 的 概念 。 


如 图 2-11 所 示 ， 在 卷 积 神经 网 络 中 ， 感 受 野 的 定义 是 卷 积 神经 网 络 每 一 层 输出 的 特征 图 上 其 像素 点 在 原始 图 像 上 映射 的 区 域 大 小 。 





图 2-11 CNN 及 感受 野 


例如 ，Alexnet 网 络 (CNN 的 经 典 网 络 之 一 ) pool5 输 出 的 特征 图 上 其 像素 在 输入 图 像 上 有 很 大 的 感受 野 (195x195pixels) MEK. 
2. 局 部 连接 


我 们 可 以 通过 图 2-12 对 比 全 连接 层 和 卷 积 层 在 计算 开销 上 的 差别 。 图 2-12a 是 全 连接 层 的 计算 方式 ， 图 2-12b 是 局 部 连接 的 计算 方式 。 假 设 输 入 图 像 为 1000x1000 像 素 ， 而 与 之 连接 的 隐藏 层 的 神经 元 
是 106， 那 么 计算 一 下 则 全 连接 会 产生 1000x1000x106=1012 个 权重 参数 ， 大 量 的 参数 将 造成 巨大 的 计算 开销 ; 如 果 使 用 卷 积 层 中 的 局 部 连接 方式 ， 隐 藏 层 的 每 个 神经 元 只 和 图 像 中 10x10 的 局 部 图 像 进 行 
连接 ， 那 么 权重 参数 将 又 减 为 10x 10x 1086=108， 对 计算 量 有 数量 级 的 消减 。 


全 连接 神经 网 络 局 部 连接 神经 网 络 
Example: 1000x1000 image 

IM hidden units 
c} 10712 parameters!!! 








& \ 
è = Example: 1000x1000 image 
* o = Y IM hidden units 
C) Filter size: 10x10 
. 100M parameters 
e 
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- Spatial correlation is local 
- Better to put resources elsewhere! 


a) 





图 2-12 ” 卷 积 层 与 全 连接 层 对 比 
3. 多 滤波 器 
不 同 的 滤波 器 可 以 获取 到 不 同 的 信息 和 特征 。 


基础 形状 : 较 大 的 形状 都 可 以 分 解 为 细小 的 形状 和 部 件 ， 也 就 是 小 的 形状 可 以 逐 级 逐步 组 合成 大 的 部 件 。 比 如 图 2-13 中 ， 由 pixels 可 以 构成 edges， 由 edges 可 以 构成 object parts， 由 object parts 可 以 
构成 object models。 若 将 探测 到 细小 图 形 的 特征 图 作为 新 的 输入 ， 那 么 再 次 卷 积 后 ， 则 可 以 由 此 探测 到 “更 大 ”的 形状 概念 ， 这 样 逐 层 探测 可 以 将 局 部 小 的 形状 信息 卷 积 为 大 的 形状 信息 。 


其 他 特征 : 图 像 颜色 、 对 比 度 等 特征 对 图 像 的 识别 也 有 一 定 影响 。 卷 积 层 也 可 以 设计 相应 的 滤波 器 进行 相应 的 特征 提取 。 通 过 下 面 的 图 2-14 可 以 看 到 ， 卷 积 过 后 的 特征 可 以 获取 边缘 、 校 角 、 模 糊 等 对 
识别 有 帮助 的 信息 。 


图 2-14 展 示 了 不 同 滤波 器 的 作用 。 例 如 ， 有 的 滤波 器 可 以 进行 边缘 检测 、 锐 化 、 边 框 模糊 (Box Blur) 、 高 斯 模糊 等 。 


因此 使 用 多 个 不 同 的 滤波 器 对 同一 张 图 片 进行 多 次 特征 提取 ， 可 以 获得 不 同 的 特征 图 。 
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图 2-14” 几 类 滤波 器 及 作用 中 
4. 权 值 共 享 


采用 卷 积 的 方式 ， 可 以 减少 一 定 参数 ， 但 是 参数 量 依然 很 多 。 采 用 权 值 共享 的 方式 可 以 进一步 减少 参数 。 例 如 ， 在 第 2 节 例 子 中 ， 隐 藏 层 的 每 一 个 神经 元 连接 的 是 一 个 10x 10 的 局 部 图 像 ， 因 此 有 10x10 
个 权 值 参数 。 将 这 10x 10 个 权 值 参数 共享 给 剩 下 的 神经 元 ， 也 就 是 说 隐藏 层 中 106 个 神经 元 的 权 值 参数 都 是 相同 的 ， 此 时 不 管 神经 元 数量 为 多 少 ， 权 重 参数 均 变 为 10x10 个 。 


[1] 图 片 2-14 来 源 : https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/。 


2.2.5 池 化 


通过 卷 积 获得 了 特征 之 后 ， 我 们 希望 利用 这 些 特 征 进行 分 类 。 理 论 上 讲 ， 人 们 可 以 利用 提取 到 的 所 有 特征 去 训练 分 类 器 ， 但 这 样 做 将 面临 着 计算 量 的 挑战 。 
为 了 解决 这 个 问题 ， 首 先 回忆 一 下 ， 我 们 之 所 以 决定 使 用 卷 积 后 的 特征 是 因为 图 像 区域 有 用 的 特征 极 有 可 能 在 另外 一 个 区 域 也 同样 适用 ， 这 称 为 图 像 的 静态 性 。 


因此 ， 可 以 对 不 同位 置 的 特征 进行 聚合 统计 进而 表示 一 个 更 大 的 图 像 。 例 如 ， 人 们 可 以 计算 图 像 某 一 个 区 域 上 的 某 个 特定 特征 的 平均 值 (或 最 大 值 ) 。 聚 合 统计 特征 不 仅 具 有 低 得 多 的 维度 〈 相 比 使 用 
提取 得 到 的 所 有 特征 ) ， 同 时 还 会 改善 结果 (不 容易 过 拟 合 ) 。 池 化 层 的 主要 功能 是 下 采样 ， 却 不 会 损坏 识别 结果 。 这 意味 着 卷 积 后 的 特征 图 中 有 对 于 识别 物体 来 说 不 必要 的 见 余 信息 。 这 种 聚合 的 操作 就 
称 为 池 化 (pooling) ， 有 时 也 称 为 平均 池 化 或 者 最 大 池 化 ， 具 体 取 决 于 计算 池 化 的 方法 。 


如 图 2-15 所 示 的 是 使 用 最 大 池 化 (max pooling) 操作 的 实例 。max pooling 的 操作 如 图 2-15 所 示 ， 整 个 图 片 被 不 重 革 地 分 割 成 若干 个 同样 大 小 的 小 块 (pooling size) 。 每 个 小 块 内 只 取 最 大 的 数 
F, 一 步 步 操作 后 即 可 获得 特征 图 。 


深度 为 1 的 切片 


各 长 泡 2 








图 2-15” 池 化 层 


综 上 所 述 ，CNN 引 入 局 部 连接 、 权 值 共 享 和 池 化 层 ， 也 是 出 于 图 像 平移 不 变性 的 考虑 。 因 为 有 权 值 共享 ， 即 使 同一 形状 的 物体 在 不 同位 置 也 可 以 被 等 价 识别 ， 因 此 不 需要 对 每 个 位 置 都 设计 自己 的 卷 积 
滤波 器 进行 学 习 。 
2.2.6 Inception 


对 于 相同 的 物体 形状 ， 可 能 由 于 图 像 分 辩 率 等 原因 ， 在 不 同 的 图 像 中 其 大 小 可 能 不 一 样 ， 为 了 消除 尺寸 对 于 识别 结果 的 影响 ,研究 人 员 设 计 了 Inception 的 结构 ， 如 图 2-16 所 示 。 尽 管 也 有 不 同 的 版 本 ， 
但 是 其 动机 都 是 一 样 的 : 消除 尺寸 对 于 识别 结果 的 影响 ,一 次 性 使 用 多 个 不 同 的 滤波 器 大 小 来 抓 取 多 个 范围 不 同 的 概念 ， 并 让 网 络 自己 选择 所 需要 的 特征 。 


INCEPTION 模块 





平均 池北 fag 1 


图 2-16 Inception $4] 


我 们 选择 直接 使 用 像素 信息 (1x 1 卷 积 ) 传递 到 下 一 层 ， 可 以 选择 3x3 卷 积 ， 也 可 以 选择 5x5 卷 积 ， 还 可 以 选择 max pooling 的 方式 


渝 入 〈 可 以 是 卷 积 完 后 的 长 方 体 输 出 作为 该 层 的 输入 ) 进来 后 ， 通 常 
是 需要 大 量 的 实验 和 经 验 的 。 


处 理 刚 被 卷 积 后 的 特征 图 。 但 在 实际 的 网 络 设计 中 ， 究 竟 该 如 何 选择 


2.2.7 ”Flatten 层 和 全 连接 层 


当 抓 取 到 足以 用 来 识别 图 片 的 特征 之 后 ， 接 下 来 的 问题 就 是 如 何 进行 分 类 ， 通 过 Flatten 层 展 平 之 前 的 特征 图 ， 并 结合 全 连接 层 将 结果 映射 到 可 分 的 空间 。 全 连接 层 (Fully Connected Layers, FC) 在 
整个 卷 积 神经 网 络 中 起 到 了 “分 类 器 ”的 作用 。 如 果 说 卷 积 层 、 池 化 层 和 激活 函数 层 等 操作 是 将 原始 数据 映射 到 隐 层 特征 空间 的 话 ， 那 么 全 连接 层 起 到 的 作用 则 是 将 学 到 的 特征 映射 到 样本 标记 空间 。 通 常 
卷 积 网 络 的 最 后 会 将 末端 得 到 的 长 方 体 平 难 (Flatten) 成 一 个 长 长 的 向 量 ， 并 送 入 全 连接 层 配 合 输出 层 进行 分 类 。 


2.2.8 HRE 

之 前 介绍 的 神经 网 络 模型 和 深度 学 习 模 型 ， 都 是 逐 层 逐步 变换 的 ， 不 允许 跳 层 组 合 。 但 在 现实 中 ， 比 如 说 我 们 在 判断 一 个 物体 的 时 候 ， 很 多 时 候 我 们 并 不 是 观察 它 的 全 部 ， 或 者 提供 给 你 的 图 片 本 身 就 
是 残缺 的 ， 这 时 我 们 可 以 通过 跳 层 连接 来 获取 组 合 信息 以 辅助 判断 。 

例如 我 们 判断 一 个 人 会 靠 其 五 官 、 着 装 、 身 形 来 综合 判断 其 特征 。 即 便 图 片 本 身 是 残缺 的 也 可 以 很 好 地 判断 它 是 什么 。 


跳 层 连接 允许 不 同 层级 之 间 的 因素 进行 信息 交互 、 综 合 判断 。 例 如 图 2-17 所 示 的 DenseNet 就 是 拥有 这 种 特点 的 神经 网 络 。 





图 2-17 DenseNet 


2.2.9 经 典 CNN 


上 文 介绍 了 卷 积 神经 网 络 的 基本 概念 ， 以 及 各 个 组 件 的 作用 和 设计 初 袁 。 以 下 是 经 典 的 卷 积 神经 网 络 结构 ， 从 中 我 们 可 以 了 解 到 整个 CNN 的 发 展 趋势 和 进化 方向 。 
-LeNet: 较 早 的 深度 神经 网 络 结构 。 

- AlexNet: 相 比 LeNet， 网 络 层 次 更 深 。 其 使 用 堆 又 卷 积 层 来 进行 特征 提取 ， 通 常 是 一 个 卷 积 层 之 后 连接 一 个 Max Pooling 层 ， 形 成 网 络 结构 。 

. ZF Net: 增加 了 中 间 卷 积 层 的 尺寸 ， 使 得 第 一 层 的 Sttide 和 滤波 器 尺寸 更 小 。 

- GoogLeNet: 减少 参数 数量 ， 最 后 一 层 使 用 Max Pooling 层 代替 了 全 连接 层 ， 同 时 引入 了 Inception-v4 模 块 的 使 用 。 

* VGGNet: 只 使 用 3X3 卷 积 层 和 2X2 pooling 层 进行 深度 神经 网 络 结构 连接 。 

< ResNet: 引入 了 跳 层 连接 和 Batch Normalization. 

` DenseNet: 将 跳 层 连接 应 用 于 整个 网 络 结构 。 

这 些 结构 的 发 展 趋势 具体 如 下 。 

` 使 用 更 小 尺寸 滤波 器 的 卷 积 层 和 池 化 层 。 


* 去 掉 参 数 过 多 的 全 连接 层 。 


”JInception 。 
整体 设计 利用 图 像 不 变性 的 先 验 知识 在 提高 深度 神经 网 络 整体 性 能 的 同时 可 以 节省 计算 量 。 满 足 新 的 不 变性 特点 的 神经 网 络 ， 以 及 减少 计算 量 的 优化 ， 是 计算 机 视觉 领域 很 重要 的 研究 方向 。 


综 上 所 述 ， 卷 积 神经 网 络 大 致 就 是 卷 积 层 、 池 化 层 、 激 活 函 数 、 全 连接 层 的 组 合 。 


2.3 RNN 


在 之 前 介绍 的 CNN 的 网 络 结构 中 ， 层 与 层 之 间 是 有 连接 的 ， 但 是 每 层 之 间 的 节点 是 无 连接 的 ， 这 样 会 造成 网 络 结构 对 一 些 问 题 无 能 为 力 。 例 如 ， 你 要 预测 句子 的 下 一 个 单词 是 什么 ， 一 般 需要 用 到 前 面 


EAZA 


的 单词 ， 因 为 一 个 句子 中 前 后 单词 之 间 并 不 是 独立 无 关 的 。RNN (Recurrent Neuron Network) 是 一 种 对 序列 数据 建 模 的 神经 网 络 ， 即 一 个 序列 当前 的 输出 与 之 前 的 输出 也 有 关 。 具 体 的 表现 形式 为 网 络 


spa 


会 对 上 一 步 的 计算 信息 进行 记忆 ， 并 应 用 于 当前 输出 的 计算 中 ， 对 应 也 可 以 认为 是 隐藏 层 之 间 的 节点 不 再 是 无 连接 而 是 有 连接 的 。 网 络 结构 形式 详 见 后 续 章 节 。 


2.3.1 ”RNN 结 构 


RNN 的 形式 非常 灵活 ， 下 面 将 介绍 RNN 的 网 络 结构 形式 和 对 应 的 应 用 场景 。 
以 下 几 种 形式 中 one 的 意思 并 非 指 长 度 为 一 ， 而 是 指数 据 的 长 度 是 固定 的 ， 而 many 则 表示 长 度 是 变 长 的 。 
.一 对 一 形式 (One to One) : 输入 和 输出 是 定 长 的 。 
例如 ， 文 本 分 类 问题 ， 每 个 文章 被 转换 为 向 量 ， 计 算 每 个 文章 所 属 每 个 类 别 的 概率 。 文 章 向 量 的 特征 数 和 分 类 数 都 是 确定 的 ， 虽 然 大 于 一 ， 我 们 也 可 以 认为 是 One to One 的 形式 。 
:多 对 一 形式 〈Many to One) : 整个 序列 只 有 一 个 输出 ， 如 情感 分 析 等 。 
如 输入 一 段 文字 判别 它 所 属 的 类 别 ， 输 入 一 个 句子 判断 其 情感 倾向 ， 输 入 一 段 视频 并 判断 它 的 类 别 等 。 
- 一 对 多 形式 (One to Many) : 一 个 输入 产 出 一 个 序列 ， 常 用 于 Seq2Seq 的 解码 阶段 。 
. 从 图 像 生成 文字 (image caption) ， 此 时 输入 的 x 就 是 图 像 的 特征 ， 而 输出 的 y 序 列 就 是 一 段 句 子 。 
" 从 类 别 生成 语音 或 音乐 等 。 
. 单词 释义 等 。 
.多 对 多 形式 (Many to Many) : 一 个 序列 对 应 一 个 序列 。 
这 种 结构 又 称 为 Enhcoder-Decoder 模 型 ， 也 可 以 称 为 Seq2Seq 模 型 。 
由 于 这 种 Encoder-Decoder 结 构 不 限制 输入 和 输出 的 序列 长 度 ， 因 此 其 应 用 范围 非常 广泛 ， 具 体 如 下 。 
- 机 器 翻译 : Encoder-Decodet 的 最 经 典 应 用 ， 事 实 上 这 一 结构 就 是 由 机 器 翻译 领域 最 先 提出 的 。 
` 文本 摘要 : 输入 是 一 段 文 本 序列 ， 输 出 是 这 段 文 本 序列 的 摘要 序列 。 
. 阅读 理解 : 将 输入 的 文章 和 问题 分 别 编码 ， 再 对 其 进行 解码 得 到 问题 的 答案 。 
语音 识别 : 输入 是 语音 信号 序列 ， 输 出 是 文字 序列 。 


接 下 来 我 们 将 以 基础 的 RNN 结 构 讲解 其 网 络 结构 和 训练 的 过 程 。 


23.2 ”基本 结构 与 前 向 传播 


RNN 的 基本 网 络 结构 如 图 2-19 所 示 ， 篆 头 右 侧 是 左 侧 网 络 结构 展 开 的 实例 。 例 如 ， 如 果 我 们 输入 RNN 模 型 的 是 包含 10 个 单词 的 句子 ， 那 么 按照 图 2-18 的 展开 方式 ， 将 会 展开 为 10 层 的 神经 网 络 ， 每 个 
单词 会 对 应 一 个 层 。 
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y Xij Xt X+] 
图 2-18 RNN 基 本 结构 示例 
* Xt 代表 在 t 时 刻 的 输入 。 
. st 是 在 t 时 刻 的 隐藏 状态 。 代 表 网 络 不 断 传递 的 记忆 。si 基 于 之 前 隐藏 层 的 状态 和 当前 的 输入 ， 其 计算 公式 为 : 


s = LU 六 (2.3 ) 


a 


通常 使 用 tanh 或 ReLU 代 表 f 函 数 。 第 一 个 隐藏 层 的 状态 输入 ， 默 认可 以 设置 为 0。 


“ Oi 是 t 时 刻 的 输出 。 其 计算 公式 为 : 


O, = softmax(v,,) (2.4) 


例如 ，RNN 模 型 每 个 时 刻 的 输入 xt 可 以 是 一 个 单词 映射 成 的 词 向 量 ， 输 出 ot 是 一 个 预测 所 属 词 概率 的 向 量 。 


相 比 较 于 其 他 深度 学 习 的 网 络 结构 ， 在 每 层 都 使 用 不 同 的 参数 ， 一 个 RNN 模 型 共享 每 一 步 的 (U，V，W) 参数 ， 这 样 就 减少 了 大 量 要 学 习 的 参数 ， 每 一 步 都 相当 于 用 同一 套 参 数 拟 合 不 同 的 输入 。 


2.3.3 BPTT 


我 们 将 2.3.3 节 中 的 输出 符号 o 换 为 了 。RNN 的 计算 公式 为 计算 隐藏 层 状 态 S 和 输出 y: 


S,=tanh(U,+W,_,) (2.5 ) 


Y, = softmax(V,) (2.6) 


与 其 他 深度 学 习 和 机 器 学 习 模 型 一 样 ， 我 们 还 需要 定义 损失 函数 。 这 里 使 用 交叉 (Cross Entropy Loss) ， 公 式 如 下 所 示 : 
A a 
E, (了 ) =—Y, log y 
A A A 
(2.7 ) 
E(y,.¥,)= > E,(y,.9,)=-)>_ y, logy 
i i 


损失 函数 公式 E 中 的 yt 是 t 时 刻 输出 的 真实 值 ， 了 是 t 时 刻 答 出 的 预测 值 。 一 般 情 况 下 ， 将 一 个 序列 和 其 输出 作为 一 个 样本 ， 损 失 函 数 整体 需要 累积 这 个 样本 所 有 时 刻 的 误差 Et 代表 t 时 刻 的 误差 ，E 代 表 
这 个 序列 的 误差 。 


图 2-19 所 示 的 为 RNN BPTT 求 导 过 程 。 


Eo 





Xo Xi Xa X3 Xa 
图 2-19 RNN BPTT 求 导 


构建 好 损失 函数 之 后 ， 我 们 就 可 以 通过 梯度 下 降 的 方法 求解 最 优 参 数 U、V 和 W。 在 每 个 时 间 点 ， 对 每 个 训练 样本 聚合 所 有 时 间 点 的 更 新 梯度 ， 公 式 如 下 : 


OE _y 2, 
OW ST oW 


之 后 ， 通 过 之 前 介绍 的 反 向 传播 过 程 中 使 用 到 的 链 式 法 则 进行 梯度 的 计算 。 后 续 的 例子 中 将 使 用 E3 为 例 进行 介绍 。 


(2.8) 


回归 前 向 传播 公式 : 


S, = tanh(U,+W,_,) (2.9 ) 


Y, = softmax(V s) (2.10) 
我 们 以 对 W 求 导 m 为 例 。 首 先 记录 下 类 似 上 面 链 式 求 导 的 例子 ， 如 图 2-21 所 示 : 


OE, _ OE; Oy, OS; 
(2.11) 
Ow DA os, ow 


gph T aU + 下 35) 依 赖 s?，s2? 又 依赖 W 和 s;1， 依 次 类 推 。 所 以 对 W 求 导 的 过 程 不 能 将 s> 当 作 常 数 对 待 ， 需 要 继续 使 用 链 式 法 则 : 


0E, Oy, OS, OS, | 
es (2.12) 
5 Oy, OS, oS, ow 


因为 循环 神经 网 络 每 一 时 刻 的 计算 都 要 使 用 W， 所 以 会 将 从 k=0 的 时 刻 到 k=2 的 时 刻 之 间 所 产生 的 梯度 全 部 进行 累加 。 同 理 U 和 V 的 计算 方式 与 W 类 似 。 


从 计算 过 程 来 看 ，BPTT 与 标准 反 向 传播 算法 非常 类 似 。 区 别 在 于 RNN 在 每 层 计算 过 程 中 ， 参 数 W、U、V 都 是 共享 的 ， 所 以 每 层 所 得 到 的 W 需 要 累加 到 一 起 。 而 传统 的 反 向 传播 求 导 的 计算 过 程 中 ， 每 
一 层 的 参数 都 是 独立 的 ， 所 以 迭代 求解 参数 的 过 程 也 是 独立 的 。 


2.3.4 LSTM 


LSTM 的 作用 表现 在 如 下 两 个 方面 。 
` 模型 上 : 长 短 时 记忆 。 
计算 上 : 梯度 消失 (vanishing gradient) 问题 ， 这 个 问题 导致 了 LSTM 和 GRU 的 产生 。 


由 于 RNN 模 型 是 在 序列 数据 上 进行 训练 的 ， 为 了 能 够 记忆 这 种 类 型 的 数据 ， 可 以 理解 为 类 似 人 对 之 前 的 事情 产生 了 记忆 。 但 是 由 于 RNN 的 设计 结构 ， 只 对 离 得 近 的 记忆 更 多 ， 对 较 远 的 序列 因素 则 记忆 
较 差 。 


1.LSTM 基 本 结构 


从 网 络 结构 上 来 看 ， 因 为 输入 在 权重 参数 和 激活 遂 数 的 层 层 作用 下 ， 容 易 在 传导 过 程 中 发 生 梯 度 消失 或 梯度 爆炸 的 问题 ， 造 成 之 前 的 记忆 指数 级 被 遗忘 ， 从 而 造成 信息 很 难 在 很 长 的 结构 中 进行 传递 的 
问题 。 这 种 长 期 依赖 问题 对 于 自然 语言 处 理 等 场景 来 说 是 需要 处 理 的 问题 。 


为 了 解决 这 个 问题 ， 研 究 人 员 设 计 了 LSTM (Long Short Term Memory Networks) ， 也 称 为 长 期 记忆 网 络 。 
如 图 2-20 ~ 图 2-22 所 示 ， 我 们 将 2.3.3 节 的 隐藏 层 状 态 s 更 换 为 h。 


LSTM 相 比较 于 传统 RNN， 会 多 出 三 个 门 控制 器 ， 输 入门 (Input Gate) 、 输 出 门 (Output Gate) 和 遗忘 门 (Forget Gate) 。 三 种 门 控制 器 的 结构 相同 ， 由 Sigmoid 函 数 (Bots) 和 点 积 运 算 
(图 中 x 符号 ) 构成 。Sigmoid 函 数 的 取 值 范围 为 0 到 1， 代 表 能 通过 门 的 信息 比例 。 





图 2-20 RNN 基 本 网 络 结构 





图 2-21 LSTM 网 络 结构 
eo - >> 一 一 
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图 2-22 LSTM 符 号 说 明 


2. 长 期 记忆 单元 


对 于 基本 的 RNN， 每 一 个 时 刻 的 状态 中 (如 ht) ， 其 实 包含 当前 的 输入 和 原 有 记忆 的 信息 。 但 是 这 样 做 会 由 于 记忆 信息 随 着 时 间 步 的 推进 而 出 现 指 数 级 的 衰减 问题 ， 因 此 LSTM 通 过 增加 长 期 记忆 单元 
Ct 来 保存 长 期 记忆 的 信息 ， 如 图 2-23 中 的 Ct。 


其 中 ft 帮 0it 分 别 代表 遗忘 门 (图 2-24) 和 输入 门 (图 2-25) 。 





图 2-23 LSTM 长 期 记忆 单元 





图 2-24 LSTM 长 期 记忆 单元 与 遗忘 门 
广 = o( Wer: (hin, X:)+/) (2.13 ) 


如 图 2-24 所 示 ， 每 一 个 时 刻 ， 踪 忘 门 用 于 控制 上 一 时 刻 记忆 的 遗忘 程度 。 


如 图 2-25 所 示 ， 每 一 个 时 刻 ， 输 入 门 用 于 控制 新 记忆 C: 写 入 长 期 记忆 的 程度 。 其 中 tanh 函 数 取 值 范围 为 [-1，1]。 





图 2-25 LSTM 长 期 记忆 单元 与 输入 门 


i, = 0(W; + [hy-1, x:]+bi) (2.14 ) 


C, = tanh(W. + [h-1, x;]+b.) (2.15 ) 


如 图 2-26 所 示 ， 长 期 记忆 单元 的 整体 更 新 可 以 合并 为 如 下 公式 的 整体 ， 由 遗志 门 和 输入 门 共同 作 用 产生 。 





图 2-26 LSTM 长 期 记忆 单元 更 新 与 输出 


人; 一 记 类 C-i +i * C, (2.16) 


3. 短 期 记忆 单元 


对 于 短期 记忆 ht 的 更 新 如 图 2-27 所 示 ， 其 中 Ot 表示 输出 门 ， 它 控制 着 短期 记忆 如 何 受 长 期 记忆 影响 。 





图 2-27 LSTM 短 期 记忆 单元 与 输出 门 


O, = o(Wo\ h, X;|+bo) ( 2.17 ) 
h, = O,tanh(C;) (2.18) 


从 网 络 结构 上 进行 观察 ，LSTM 对 基础 RNN 的 优化 具体 体现 在 通过 门 控制 器 增加 了 对 不 同时 刻 的 权重 的 控制 ， 通 过 跨 层 权重 的 连接 减少 了 梯度 消失 的 影响 。 这 与 CNN 中 的 跳 层 连接 的 思想 也 很 相近 。 


2.3.5 ”RNN 拓 展 


根据 应 用 的 需求 ， 研 究 人 员 基 于 基本 的 RNN 又 设计 出 了 新 的 RNN 变 种 ， 例 如 双向 循环 神经 网 络 、 注 意 力 (Attention) 机 制 、 深 度 循环 网 络 等 。 
1. 双 向 RNN 


由 于 在 某 些 自然 语言 处 理 的 场景 下 ， 时 刻 t 的 输出 ， 不 仪 会 依赖 于 前 面 的 上 下 文 ， 还 可 能 会 依赖 于 后 面 的 上 下 文 。 例 如 ， 预 测 一 个 句子 中 缺失 的 单词 ， 也 希望 能 够 参考 前 面 和 后 面 的 上 下 文 ， 综 合 考虑 进 
行 预测 。 


如 图 2-28 所 示 ， 双 向 RNN 有 两 个 隐藏 层 RANN， 输 出 结果 是 基于 这 两 层 的 隐藏 层 输出 综合 计算 出 来 的 。 





图 2-28 ”双向 RNN 


2. 深 度 双 向 RNN 


如 图 2-29 所 示 ， 深 度 双 向 RNN 与 双向 RNN 非 常 相近 ， 相 当 于 多 层 的 双向 RNN 赤 加 起 来 ， 这 样 就 使 得 模型 具有 更 强 的 拟 合 能 力 ， 但 是 需要 更 长 的 训练 时 间 和 训练 数据 才能 让 模型 收敛 。 
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图 2-29 ”深度 双向 RNN 
3. 注 意 力 机 制 


注意 力 机 制 (Attention Mechanism) 可 以 提升 基于 RNN 中 Encoder-Decoder 模 型 的 效果 。 注 意 力 机 制 由 于 其 较 好 的 效果 ， 广 泛 应 用 于 机 器 翻译 、 语 音 识别 、 图 像 标 注 等 领域 。 


注意 力 机 制 的 思想 可 以 参考 这 篇 具有 代表 性 的 论文 《Recurrent Models of Visual Attention》。 人 在 观察 图 像 时 倾向 于 根据 需求 将 注意 力 集中 到 图 像 的 特定 部 分 。 而 且 人 类 会 根据 之 前 观察 的 图 像 学 
习 到 未 来 要 观察 图 像 时 注意 力 应 该 集中 的 位 置 。 可 以 将 这 部 分 经 验 融入 模型 中 ， 让 模型 能 够 有 针对 性 地 学 习 到 对 预测 有 帮助 的 重要 因素 。 


注意 力 机 制 为 每 个 词 赋予 不 同 的 权重 ， 使 神经 网 络 模型 的 学 习 变 得 更 加 灵活 ， 同 时 Attention 本 身 也 可 以 作为 一 种 对 齐 关 系 ， 解 释 翻译 输入 与 输出 句子 之 间 的 对 齐 关 系 。 


24 ”最 优化 算法 
深度 学 习 和 机 器 学 习 中 经 常用 到 一 种 基于 梯度 下 降 等 算法 衍生 出 来 的 优化 算法 ， 通 过 和 迭代 的 方式 不 断 搜索 最 优 的 参数 解 。 如 果 将 权重 参数 的 解 空 间 比 作 一 个 丘陵 ， 而 我 们 要 找 的 最 优 解 就 是 丘陵 里 的 最 
低 点 ， 不 断 迭 代 搜 索 的 过 程 就 像 不 断 将 一 个 小 球 (小 球 所 在 的 坐标 代表 参数 当时 的 值 ) 向 最 低 点 移动 的 过 程 ， 所 以 在 移动 的 过 程 中 ， 我 们 最 关心 的 是 每 个 步骤 的 移动 方向 和 移动 步 长 ， 这 也 分 别 对 应 于 梯度 


下 降 中 的 梯度 (方向 ) 和 步 长 ， 如 图 2-30 所 示 。 


This is the path followed by the optimizer to reach the global minimum[0.22777 —1.6257] 






Initial Condition 


Global Minimum 


图 2-30 ”优化 算法 的 求解 过 程 


下 面 几 节 将 介绍 深度 学 习 中 经 常 使 用 到 的 几 种 典型 的 优化 算法 。 


2.4.1 梯度 下 降 


梯度 下 降 法 是 比较 常用 的 并 且 基 本 的 权重 参数 求解 方法 。 根 据 每 次 训练 所 使 用 的 数据 量 不 同 ， 梯 度 下 降 法 可 以 分 为 以 下 几 种 类 型 。 
1. 批 量 梯度 下 降 (Batch Gradient Descent) 

对 整个 数据 集 求 梯度 ， 然 后 对 权重 进行 更 新 。 

符号 说 明 : 

` 9 为 权重 参数 。 

.1 为 步 长 。 


-ò (0) 表示 对 全 体 数 据 求 梯度 。 


0 = 0-1 - Vo O) (2.19 ) 


优点 : 


对 凸 优化 问题 可 以 收敛 到 全 局 最 小 值 ， 对 非 凸 优化 问题 至 少 可 以 收敛 到 局 部 极 小 值 。 


内 存 不 能 容纳 下 的 样本 处 理 开 销 较 大 。 
` 不 能 进行 在 线 学 习 。 


2. 随 机 梯度 下 降 (Stochastic Gradient Descent) 


xx ;yt 代表 随机 提取 的 样本 。 


0 = 0 一 711 “Vo S(O; x, y”) ( 2.20 ) 


优点 : 


` 相 比 批量 梯度 下 降 ， 随 机 梯度 下 降 速 度 更 快 。 


参数 更 新 误差 较 大 。 
3. 小 批 次 随机 梯度 下 降 (Mini-batch Gradient Descent) 


ox GE Ha) ; y (i itn) REIA HI EK 
— Ün. 10. tn),. (Ein ( | ) 
0 = 0-1 - Vo S(O; x; y "N 2.21 
小 批 次 随机 梯度 下 降 的 优 缺点 介 于 BGD 和 SGD 之 间 ，Batchsize 是 用 户 可 配置 的 超 参数 。 


针对 梯度 下 降 衍 生出 了 一 系列 针对 深度 学 习 的 优化 算法 ， 都 是 围绕 着 梯度 和 步 长 两 个 方向 进行 设计 和 优化 的 ， 由 于 篇 幅 有 限 ， 这 里 我 们 选取 常用 的 Adam 进 行 介绍 。 


2.4.2 Adam 
Adam (Adaptive Moment Estimation) 本 质 上 是 带 有 动量 项 的 RMSsprop， 它 利用 梯度 的 一 阶 和 矩 估 计 和 二 阶 矩 估计 动态 调整 每 个 参数 的 学 习 率 。Adam 的 优点 主要 在 于 经 过 偏 置 校正 之 后 ， 每 一 次 迭 
代 的 学 习 率 都 有 一 个 确定 的 范围 ， 使 得 参数 比较 平稳 。 


- 动量 : SGD 在 迭代 过 程 中 有 比较 大 的 噪声 。 而 动量 (Momentum) 方法 可 以 比较 好 地 缓解 这 个 问题 。 尤 其 是 在 面 对 小 而 连续 的 梯度 但 是 含有 很 多 噪声 的 时 候 ， 动 量 可 以 很 好 地 加 速 学 习 。Momentum 使 
用 的 是 物理 中 的 动量 概念 。 前 几 次 的 梯度 也 会 参与 运算 。 


. 自 适应 学 习 率 : 可 以 自动 变更 学 习 速 率 ， 只 是 需要 设 定 一 个 全 局 的 学 习 速 率 E ,但 是 这 并 不 是 实际 的 学 习 速 率 。 它 利用 梯度 的 一 阶 矩 估计 和 二 阶 矩 估计 动态 调整 每 个 参数 的 学 习 率 。 
参数 说 明 : 

“ 全 局 学 习 率 E ， 初 始 参 数 06， 数 值 稳定 量 5， 一 阶 动量 衰减 系数 o1， 二 阶 动量 衰减 系数 o>。 

其 中 几 个 参数 的 取 值 一 般 为 5S=10-8，p1=0.9，p2=0.999 

` 中 间 变 量 : 一 阶 动量 8s， 二 阶 动量 [， 都 初始 化 为 0。 

算法 迭代 流程 : 

1) 从 训练 集中 的 随机 抽取 一 批 容量 为 m 的 样本 {x1，..….，Xxm}， 以 及 相关 的 输出 yi。 


2) 计算 梯度 和 误差 ， 更 新 [和 s， 再 根据 [和 s 以 及 梯度 计算 参数 更 新 量 。 


1 
g H+ Vy Lf (0),») (2.22) 


se pst(l-p,)g (2.23 ) 


r<prt+(l-p,)g*g (2.24) 


Ss <— 人 (2.25) 
/< (2.26) 


A0 =- E -= (2.27 ) 


0<—60+A0 (2.28 ) 


对 于 稀 踊 数据 ， 应 尽量 使 用 学 习 率 可 自 适 应 的 优化 方法 ， 不 用 手动 调节 ， 而 且 最 好 采用 默认 值 。 


SGD 的 训练 时 间 通 常 更 长 ， 容 易 陷 入 贰 点， 但 是 在 好 的 初始 化 和 学 习 率 调度 方案 的 情况 下 ， 结 果 会 更 可 靠 。 若 希望 收敛 速度 更 快 ， 并 且 神 经 网 络 是 较 深 较 复杂 的 情况 时 ， 推 荐 使 用 学 习 率 自 适 应 的 优化 
方法 。Adadelta、RMsprop、Adam 是 比较 相近 的 算法 ， 相 似 情况 下 表现 较为 相近 。 


2.5 ”本 章 小 结 


本 章 首先 介绍 了 深度 学 习 技 术 及 其 与 传统 人 工 神经 网 络 的 区 别 ， 之 后 介绍 了 深度 神经 网 络 中 的 基本 组 件 ， 使 得 读者 对 深度 神经 网 络 中 涉及 的 技术 点 能 够 逐个 进行 了 解 。 接 下 来 逐步 深入 介绍 了 CNN、 
CNN 中 涉及 的 卷 积 层 、 参 数 共 享 、 池 化 层 等 设计 理念 。 之 后 介绍 了 RNN， 以 及 RNN 中 常见 的 组 件 LSTM、Seq2Seq 等 结构 。 最 后 介绍 了 深度 学 习 中 涉及 的 优化 方法 、 梯 度 下 降 、RMSProp、Adam 等 。 


第 3 章 TensorFlow 基 础 


本 章 将 会 介绍 机 器 学 习 库 之 一 TensorFlow 的 基础 知识 。TensorFlow 几 乎 包含 了 所 有 的 神经 网 络 相关 层 以 及 辅助 函数 ， 这 使 得 利用 其 做 神经 网 络 算法 可 以 极 大 地 减少 工作 负担 。 甚 至 于 不 需要 去 了 解 优 
化 算法 、 分 布 式 等 一 些 细节 内 容 即 可 完成 对 于 深度 神经 网 络 的 搭建 和 训练 工作 。 在 享受 其 便利 性 的 同时 我 们 还 可 以 直接 将 其 用 于 生产 环境 。 这 是 其 他 机 器 学 习 库 所 不 具备 的 优点 。 


本 章 将 会 对 TensorFlow 的 基础 使 用 方法 逐一 进行 讲解 ， 还 将 学 习 神 经 网 络 基 本 的 全 链接 、CNN 以 及 RNN 层 的 搭建 。 


3.1 TensorFlow 


TensorFlowTM 是 一 种 采用 数据 流 图 (data flow graphs) ， 用 于 数值 计算 的 开源 软件 库 。 节 点 (Nodes) 在 图 中 表示 数学 操作 ， 图 中 的 线 (edges) 表示 在 节点 间 相互 联系 的 多 维 数据 数组 ， 即 张 量 


(tensor) 。TensorFlow 具 有 灵活 的 架构 ， 可 以 在 多 种 平台 上 展开 计算 ， 例 如 台式 计算 机 中 的 一 个 或 多 个 CPU (GPU) 、 服 务 器 、 移 动 设备 ， 等 等 。TensorFlow 最 初 是 由 Google 大 脑 小 组 (隶属 于 
Google 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 的 ， 用 于 进行 机 器 学 习 和 深度 神经 网 络 方面 的 研究 ， 该 系统 的 通用 性 使 其 也 可 以 广泛 应 用 于 其 他 计算 领域 。TensorFlow 具 有 快速 、 灵 活 、 适 用 于 
生产 环境 等 特点 。 


快速 : 在 构建 和 部 署 机 器 学 习 系 统 时 ， 性 能 是 至 关 重 要 的 。 因 此 ，TensorFlow 中 包含 了 XLA， 这 是 一 款 强大 的 线性 代数 编译 器 ， 可 以 帮助 TensorFlow 代 码 在 坐 入 式 处 理 器 、CPU、GPU、TPU 和 其 他 
硬件 平台 上 尽 可 能 快速 地 运行 。 


灵活 : TensorFlow 既 提供 了 高 层级 的 API 以 便 让 使 用 者 轻松 构建 和 训练 自己 的 模型 ， 也 提供 了 低层 级 的 控制 功能 以 尽 可 能 地 提高 灵活 性 和 性 能 。 


支持 生产 环境 : TensorFlow 可 以 灵活 适应 于 不 同 的 使 用 规模 ， 其 既 支 持 探索 性 研究 ， 也 支持 大 规模 生产 用 途 。 无 论 是 开发 新 类 型 的 模型 还 是 处 理 生 产 环境 中 的 数 以 百 万 计 的 请 求 ， 所 使 用 的 
TensorFlow APl 都 是 不 变 的 ， 因 而 使 用 者 不 会 有 陌生 感 。 如 图 3-1 所 示 的 是 使 用 TensorFlow 的 部 分 企业 。 
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图 3-1 使 用 TensorFlow 的 部 分 企业 
由 图 3-1 可 以 看 到 ， 截 至 目前 很 多 企业 都 已 经 部 署 TensorFlow 用 于 机 器 学 习 应 用 ， 并 产生 了 很 好 的 效果 。 


TensorFlow 是 基于 数据 流 图 的 ， 利 用 Python 等 易于 快速 开发 的 语言 对 数据 流 图 进行 描述 ， 在 需要 用 到 高 性 能 计算 的 部 分 利用 C++ 内 核 进行 数值 计算 。 图 3-2 展 示 了 TensorBoard 所 描绘 的 计算 图 。 
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图 3-2 ”TensotFlow 数 据 流 图 
这 里 的 变量 名 称 以 及 各 种 操作 均 为 自 定义 的 ， 后 面 会 对 其 进行 详细 讲解 。 这 种 自 定义 的 变量 名 称 一 方面 会 使 得 计算 图 更 加 清晰 ， 另 一 方面 可 以 便于 变量 的 查找 。 


(edges) 的 有 向 图 来 描述 数学 计算 。“ 节 点 ”一 般 用 于 表示 施加 的 数学 操作 ， 但 也 可 以 表示 数据 输入 (feedin) 的 起 点 /输出 (push out) 的 


如 图 3-2 所 示 ， 数 据 流 图 用 “节点 ” (nodes) 和 “ 线 " 
“ 线 ” 表 示 “ 节 点 ”之 间 的 输入 /输出 关系 。 这 些 数据 “ 线 ” 可 以 输 运 “size 可 动态 调整 ”的 多 维 数据 数组 ， 即 “ 张 量 ” (tensor) 。 张 量 


终点 ， 或 者 是 读 取 / 写 入 持久 变量 (persistent variable) 的 终点 。 
从 图 中 流 过 的 直观 图 像 就 是 这 个 工具 命名 为 “Tensorflow” 的 原因 。 一 旦 输入 端的 所 有 张 量 都 准备 好 了 ， 节 点 将 被 分 配 到 各 种 计算 设备 以 完成 异步 并 行 地 执行 运算 。 灵 活 的 数据 流 图 使 得 TensorFlow 具 有 


了 其 他 机 器 学 习 库 所 不 具备 的 特征 。 


3.2 RWS 


对 于 TensorFlow 的 系统 环境 ， 这 里 推荐 使 用 64 位 版 本 : 
< MacOS X 10.11 (El Capitan) 及 以 上 。 
- Ubuntu 14.04 及 以 上 。 


Windows 7 及 以 上 。 
目前 这 些 系 统 之 中 可 以 使 用 CentOS， 对 于 较 低 版 本 的 Linux 则 需要 升级 GLIBC，TensorFlow 安 装 环境 需求 的 版 本 在 2.17 以 上 ， 否 则 会 出 现 版 本 过 低 的 问题 。 可 以 自行 编译 升级 ， 由 于 此 库 是 Linux 的 关 
键 库 ， 因 此 建议 慎重 升级 。 


本 章 仅 讲 解 Windows 版 本 的 TensorFlow 的 安装 过 程 ， 其 他 系统 可 参考 ， 或 者 直接 参阅 TensorFlow 官 网 进行 了 解 。 


TensorFlow 的 简易 安装 过 程 比较 简单 ， 对 于 直接 安装 的 方式 ， 可 以 利用 Python 自 带 的 包 管理 工具 进行 安装 ， 具 体 见 代码 清单 3-1: 


代码 清单 3-1 TensorFlow 安 装 





pip install tensorflow 


当然 ， 对 于 机 器 学 习 来 说 ， 推 荐 利用 GPU 进行 计算 ， 否 则 计算 的 时 间 消 耗 是 很 难 承受 的 ， 因 此 可 以 利用 pip 进 行 GPU 版 本 的 安装 ， 具 体 见 代码 清单 3-2 : 


代码 清单 3-2 ”GPU 版 本 安装 





pip install tensorflow-gpu 


GPU 版 本 的 安装 需要 满足 以 下 几 个 条 件 。 

1) 主机 中 有 可 用 于 通用 计算 的 GPU， 硬 件 需要 支持 2.4 节 所 述 库 的 使 用 。 

2) CUDAG 需 要 进行 安装 ， 具 体 安装 过 程 可 以 参考 NVIDIA 官 网 。 下 载 安装 后 请 确保 系统 路 径 中 包含 了 CUDA 路 径 。 

3) 同步 安装 NVIDIA 的 相关 驱动 。 

4) cuDNN 需 要 进行 安装 ， 具 体内 容 请 参考 NVIDIA 官 网 。cuDNN 路 径 与 CUDA 的 动态 链接 库 不 同 ， 需 要 确保 cuDNN 相 关 的 DLL 路 径 包 含 在 了 系统 路 径 之 中 。 


对 于 上 述 方式 安装 的 TensorFlow， 由 于 没有 支持 并 行 指令 集 ， 因 此 在 一 些 高 版 本 CPU 的 运行 过 程 中 会 有 警告 信息 ， 为 解决 这 个 问题 可 以 自行 地 对 TensorFlow 进 行 编译 。 


3.3 ”变量 及 作用 域 


本 节 将 以 向 量 相 乘 作为 例子 来 解释 变量 及 作用 域 的 相关 知识 


首先 我 们 看 一 个 和 矩阵 相 乘 的 例子 : 


Cr = Amn ; Aan ( 3.1 ) 


需要 说 明 的 是 ， 大 写字 母 粗 体 代 表 和 矩阵 ， 下 标 代 表 和 矩阵 维度 ， 也 就 是 后 文中 所 说 的 shape， 用 TensorFlow 实 践 其 运算 过 程 ， 具 体 如 下 。 
首先 需要 引入 TensorFlow 库 ， 具 体 见 代码 清单 3-3: 


代码 清单 3-3 引入 库 








import tensorflow as tf 


TensorFlow 中 和 矩阵 量 的 存在 形式 常用 的 有 三 种 ， 或 者 说 相应 的 Python 类 有 三 种 ， 具 体 如 下 。 

1) tf.Variable () 

2) tf.constant () 

3) tf.placeholder () 

第 一 种 Variable， 表 示 神 经 网 络 中 可 变化 的 量 (可 以 通过 trainable=False 设 置 成 不 可 变 ) ， 可 在 运行 中 赋值 ， 可 以 通过 constant 进 行 初始 化 ， 或 者 以 其 他 方式 进行 初始 化 。 
第 二 种 是 常量 ， 可 以 通过 numpy 中 的 array 或 者 list， 还 有 给 定 的 shape 和 数值 进行 赋值 。 


第 三 种 placeholder 相 当 于 占 位 符 ， 也 是 有 shape 的 量 ， 因 为 训练 过 程 中 需要 不 断 地 赋值 和 蔡 换 值 ， 而 整体 的 计算 结构 是 不 变 的 ， 比 如 公式 (3.1) 中 的 X 和 C 是 不 断 在 进行 替换 的 ， 而 A 是 不 变 的， 这 时 
就 需要 用 到 placeholder。 


如 果 公 式 (3.1) 中 的 矩阵 A 是 一 个 4x4 的 方 阵 ， 且 值 全 为 1， 那 么 接 下 来 对 变量 A 进 行 赋值 ， 具 体 见 代码 清单 3-4: 
代码 清单 3-4 定义 变量 


A=tf.Variable(tf.ones([4,4])) 











这 里 ，tf.ones (4, 4) 的 意思 是 生成 4x4 的 全 为 1 的 方 阵 用 于 Variable 的 初始 化 。 
当然 还 可 以 用 前 文 所 说 的 constant 进 行 初始 化 ， 具 体 见 代码 清单 3-5 : 


代码 清单 3-5 ”变量 初始 化 










































































import numpy as np 

cst=tf.constant (np. one s([4,4]),dtype=tf.float32) 

# 需 要 指定 类 型 Qtype=tf.flLoat32， Hence vi} RRS eG? Ait 
#cst=tf£.constant (1.0, shape=[4,4],dtype=tf.float32) 也 是 可 以 的 ， 具 体 请 参考 文档 
A=tf.Variable (cst) 











如 果 公 式 (3.1) 中 的 X 是 一 个 4x1 的 向 量 ， 且 值 全 为 1， 为 了 说 明 方便 ， 下 面 采 用 placeholder 方 法 ， 具 体 见 代码 清单 3-6: 


代码 清单 3-6 定义 placeholder 














X=tf.placeholder (dtype=tf.float32,shape=[4,1]) 








注意 上 述 代 码 并 未 对 其 进行 赋值 操作 。 之 后 两 个 矩阵 就 可 以 相 乘 了 ， 具 体 见 代码 清单 3-7: 


代码 清单 3-7 ”和 矩阵 相 乘 





C=tf£.matmul (A, X) 


至 此 ， 整 个 


Te" | 


代码 清单 3-8 ”定义 session 





sess=tf.Session () 


首先 所 有 的 Variable 都 要 进行 初始 化 ， 可 以 将 此 理解 为 是 C 语 言 层 中 malloc 的 过 程 。 初 始 化 变量 见 代 码 清单 3-9: 


代码 清单 3-9 ”初始 化 变量 





计算 过 程 已 经 用 Python 描述 得 差不多 了 ， 但 是 实际 上 整个 计算 并 未 运行 。 而 Python 描述 的 内 容 在 TensorFlow 中 称 为 计算 图 ， 具 体 的 执行 需要 到 (C 语 
产生 一 个 Session， 也 可 以 将 其 称 为 上 下 文 ， 描 述 的 计算 过 程 见 代码 清单 3-8: 





init=tf.global variables initializer () 


再 次 请 大 家 注意 ， 所 有 变量 在 运行 前 都 需要 进行 初始 化 ! ! 上 文 说 过 ， 所 有 的 Python 写成 的 代码 都 需要 到 底层 中 


代码 清单 3-10 ”执行 初始 化 


sess.run( 


至 此 才 算 初始 化 


接 下 来 运行 


代码 清单 3-11 


sess.run (C, 1 


init) 
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feed 的 过 程 就 是 将 X 中 的 数据 填 入 的 过 程 ， 正 如 前 文 所 说 的 ，X 是 没有 值 的 ， 需 要 后 续 添 加 。 


和 矩阵 相 乘 


和 矩阵 相 乘 的 过 程 ， 具 体 见 代码 清单 3-11: 


feed _dict={x:[[1], [1], [1], [1]]}) 





如 何 获取 变量 的 值 呢 ”请 参见 代码 清单 3-12 : 


代码 清单 3-12 ”获取 变量 值 


A val=A.value () 
Avalue=sess.run(A_val) # 依 然 需 要 run 一 下 


需要 进行 如 代码 清单 3-10 所 示 的 操作 : 


=a 


A 


写成 的 底层 中 去 执行 。Python 中 需要 


的 问题 ， 如 果 只 知道 C 和 X， 那 么 我 们 如 何 知道 A 中 的 数值 呢 ? 这 是 一 个 标准 的 反 演 问题 ， 所 谓 反 演 ， 简 单 理解 就 是 求解 未 知 和 矩 孟 。 此 问题 中 我 们 需要 求解 的 是 A 的 矩阵 。 


和 矩阵 相 乘 过 程 的 代码 如 代码 清单 3-13 所 示 : 


代码 清单 3-13 ”完整 矩形 相 乘 代码 





import tensori 








import numpy as np 














flow as tf 








X=tf.placeholder (dtype=tf. 
F.V 






































float32,shape=[4,1]) 


A=tf.Variable (tf.zeros([4,4])) 
C=tf.matmul (A, X) 

sess=tf.Session () 
init=tf.global variables initializer () 





sess.run (init) 


print (sess.run (A) ) 


前 面 说 过 ， 为 了 使 得 计算 图 更 加 清晰 ， 可 以 使 用 variable scope () ， 上 有 具体 见 代 码 清单 3-14: 


代码 清单 3-14 ”定义 变量 名 称 








with tf.variable scope (": 





tf. Variabl 


el 














W = 
b= 





fF. Variabl 


el 























F .matmul (x, W) + b 


y 
variable summaries (W) 


实际 上 其 还 有 一 个 更 为 重要 的 作用 ， 那 就 是 标识 不 同 的 变量 。 看 下 面 代 码 清单 3-15 所 示 的 例子 : 


first-nn-layer"): 
.zeros ([784, 
F.zeros([10]), name="b") 


10]), name="W") 


代码 清单 3-15 不 同 作用 域 下 的 同名 变量 





with tf.variable scope (": 






































W = tf£.Variable(tf.zeros([784, 
b = tf£.Variable (t 
Wl = tf.Variable(t 

















f.zeros([784, 





print (W.name) 
print (W1.name) 





输出 结果 如 下 : 


fFirst-nn-layer"): 


10]), name="W") 


F.zeros([10]), name="b") 


10]), name="W") 


ps D: \GitHub\NNlearn> & python d:/GitHub/NNlearn/example?.3.py 


first-nn-layer/wW:@ 





first-nn-layer/wW 1:0 


由 输出 结果 可 以 看 到 W 和 W1 属 于 不 同 的 变量 


数 ， 具 体 见 代码 清单 3-16: 









































代码 清单 3-16 ”获取 变量 
a tf -variable scope ("first-nn-layer") 
= tf.get 7 variable ("W", [784, 10]) 

i = tf.get variable("b", [10]) 
scope.reuse variables () 
Wl = tf.get variable("W", shape=[784, 

print (W.name) 

print (W1.name) 

经 过 上 面 的 运行 


PS D:\GitHub\NNlearn> & python d: 


， 昌 然 操作 中 name 的 名 字 是 相同 的 ， 但 是 在 计算 的 过 程 中 ， 依 然 是 


as scope: 


101) 


， 由 输出 结果 可 以 看 出 ，W 和 W1 属 于 同一 个 变量 : 


first-nn-layer/W:0 


被 当成 不 同 的 变 


量 ， 这 是 为 了 让 同一 个 scope 的 同一 变 


量 可 以 通过 get variable () & 


GitHub/NNlearn/exam 





first-nn-layer/wW:@ 


此 时 若 缺 少 了 scope.reuse variables () 


然 会 报错 


代码 清单 3-17 ”获取 重复 变量 

























































































with tf.variable scope ("first-nn-layer") as scope: 
W = tf.get - variable("W", [784, 10]) 
b = tf.get variable("b", [10]) 

with tf.variable scope ("second-nn-layer") as scope: 
W = tf.get variable("W", [784, 10]) 
b tf.get variable("b", [10]) 

with tf.variable scope ("second-nn-layer", reuse=True) : 
W3 = tf.get ` variable ("W", [784, 10]) 
b3 = tf.get variable("b", [10]) 

print (W.name) 

print (W3.name) 





PS D:\GitHub\WNlearn> & 


second-nn-layer/W:@ 


函数 则 会 报错 ， 因 为 同时 引用 了 同一 个 变量 。 对 于 不 同 层 的 变量 ， 可 以 利用 variable_scope 进 行 区 分 ， 在 再 次 引用 相关 变量 
着 。 如 果 在 变量 不 存在 的 时 候 用 reuse=True， 则 依然 会 报错 ， 因 为 变量 不 存在 ， 具 体 见 代码 清单 3-17: 


时 ， 需 要 加 入 reuse=True， 否 则 依 


d:/GitHub/NNlearn/example?.3.py 





second-nn-layer/W:@ 


最 后 来 说 一 下 如 何 保存 模型 ， 其 实 很 简单 ， 定 义 一 个 保存 器 ， 具 体 见 代码 清单 3-18: 


代码 清单 3-18 定义 saver 


Saver 


在 训练 过 程 中 进行 保存 ， 保 存 为 训练 过 程 中 的 变量 


代码 清 





= tf.train.Saver () 


单 3-19 ”变量 保存 





for i 





tr in range (1000): 





ht 





tp: //www.hzcourse.com/resource/readl 


具体 见 代码 清单 3-19: 








saver.save(sess, "model/al", global st 





Book?path=/openresources/teach_ ebook/uncompressed/17708/0E 





= 











tep=itr) 


而 要 加 载 计算 则 可 以 使 用 如 代码 清单 3-20 所 示 的 操作 : 


代码 清单 3-20 ”变量 载 入 


Saver. 


restore (sess, "model/v2-200") 





在 和 迭代 开始 之 前 将 变量 加 载 进 计算 图 中 。 


3.4 构建 计算 图 


BPS/Text/... 


首先 在 此 解释 一 下 ，TensorBoard 的 作用 就 在 于 使 计算 的 迭代 过 程 可 视 化 ， 同 时 也 可 以 直观 地 观察 我 们 所 描绘 的 计算 图 。 前 面 我 们 提 到 的 过 程 实际 上 都 是 在 进行 计算 图 的 描述 工作 ， 为 了 观察 所 建立 的 
计算 图 ， 可 以 简单 地 在 前 面 的 代码 中 加 入 一 句 summary 定 义 语句 ， 具 体 见 代码 清单 3-21: 


代码 清 


train 


单 3-21 定义 ;ummary 








| writer = tf.summary.FileWriter ("logdir", sess.graph) 





到 行 TensorBoard， 日 志 目 录 就 是 刚才 我 们 所 保存 的 目录 ， 可 以 直接 用 浏览 器 进行 访问 了 : 


I: \GitHub\Hhlearn> tensorboard. è Ke = os di r=Lo 三 dir 


其 中 ，sess.graph 就 是 我 们 所 描绘 的 计算 图 ，“logdir” 是 log 的 存储 文件 夹 。 在 Shell 中 运行 





a 
-= | ‘ =" ie ma 
‘tarting TensorBoard b 47 at http: rete es ee “O: 6006 

在 浏览 器 中 输入 localhost; 6006 (这 个 port 是 可 以 定义 的 ， 本 文 所 用 TensorFlow 版 本 默认 是 6006) ， 然 后 点 击 graph 标 签 就 可 以 看 到 我 们 设计 的 神经 网 络 模型 了 ， 如 图 3-3 所 示 。 
© TenscrBoard i 
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图 3-3 ”通过 TensorBoard 展 示 的 计算 图 


可 以 友 现 存在 一 个 问题 ， 那 就 是 描绘 的 计算 图 非常 杂乱 无 章 ， 变 量 名 命名 的 可 读 性 很 差 ， 这 时 就 需要 进行 一 些 整 理 ， 比 如 为 每 个 变量 命名 ， 具 体 见 代 码 清单 3-22: 


代码 清单 3-22 SEM 








[None, 784], name="input x") 


















































x = tf.placeholder (tf.float32, i 
label = tf.placeholder (tf.float32, [None, 10], name="input label") 
W = tf.Variable (tf.zeros([784, 10]), name="W") 

b = tf.Variable (tf.zeros([10]), name="b") 























从 图 3-4 可 以 看 到 ， 变 量 的 名 称 发 生 了 变化 。 
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图 3-4 对 计算 图 变 量 进行 命名 
但 依然 不 够 清楚 ， 比 如 可 以 将 输入 层 的 x 和 label 归 为 一 类 。 这 个 就 需要 用 到 tf.variable_scope () 函数 ， 具 体 见 代码 清单 3-23: 


代码 清单 3-23 ”定义 作用 域 




























































































with tf.variable scope ("input"): 
x = tf.placeholder (tf.float32, [None, 784], name="input x") 
label = tf.placeholder (tf.float32, [None, 10], name="input label") 
with tf.variable scope ("first-nn-layer"): 
W = tf.Variable(tf.zeros([{784, 10]), name="W") 
b = tf£.Variable(tf£.zeros([10]), name="b") 
= tf.matmul (x, W) + b 














y 
with tf.variable scope ("loss"): 
loss = tf.reduce mean (tf.square (y-label)) 














得 到 的 计算 图 如 图 3-5 所 示 。 
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图 3-5 定义 变量 scope 以 及 计算 图 展示 


定义 后 的 scope 是 可 以 进一步 点 开 观 察 的 。 


此 时 再 看 计算 图 是 不 是 感觉 清晰 明了 了 ? 当然 tf.variable_scope 的 作用 不 仅 限于 此 。 同 一 作用 域 下 的 同名 变量 是 相同 的 ， 这 就 会 涉及 变量 复 用 的 问题 ， 


我 们 可 以 将 需要 观察 的 变量 加 入 summary 遂 数 ， 具 体 见 下 面 的 代码 清单 3-24: 


代码 清单 3-24 ”定义 Summary 遂 数 





def variable summaries (Var) : 










































































with tf.name scope ('summaries'): 
mean = tf.reduce mean (var) 
tf.summary.scalar ('mean', mean) 
with tf.name scope ('stddev'): 

stddev = tf.sqrt (tf.reduce mean (tf.square (var - mean) ) ) 

tf.summary.scalar('stddev', stddev) 
tf.summary.scalar('max', tf.reduce max (var)) 
tf.summary.scalar('min', tf.reduce min (var)) 
tf.summary.histogram('histogram', var) 




















这 里 对 变量 添加 了 一 些 summary， 比 如 均值 、 最 大 值 等 。 若 要 观测 W 的 相关 情况 ， 则 调用 summary 函 数 ， 具 体 见 代码 清单 3-25 : 


代码 清单 3-25 ”调用 summary 函 数 


variable summaries (W) 


之 后 再 用 merge _ all 函数 收集 Summary 信 息 ， 有 具体 见 代码 清单 3-26: 


代码 清单 3-26 ”获取 summary 信 息 





merged = tf.summary.merge all () 


以 及 在 后 续 的 变量 获取 。 为 了 观察 变量 的 变化 ， 


在 迭代 过 程 中 利用 前 面 定义 的 train_writer (train_ writer=tf.summary.FileWriter (“logdir”，sess.graph) ) 输出 到 结果 之 中 ， 有 具体 见 代码 清单 3-27 : 


代码 清单 3-27 ” summary 保存 





summary = sess.run (merged, feed dict={x:batch xs, label:batch_ys}) 
train writer.add summary (summary, itr) 








LCRA LAER Psa), FRAC EAI, eX BRK SSSR CHEN, MAU MAt.variable scope () 依然 起 到 了 归 类 的 作用 ， 如 图 3-6 所 示 。 


由 图 3-6 可 以 看 到 通过 不 同 的 方式 可 以 对 变量 进行 观测 ， 比 如 时 序 统计 、histgram 图 ， 这 些 统计 信息 对 于 分 析 训 练 过 程 是 十 分 重要 的 。 
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图 3-6 ”训练 过 程 变量 统计 信息 


3.5 ”全 连接 网 络 构建 


本 节 我 们 需要 构建 一 个 TensorFlow 的 基础 实例 ， 所 谓 基 础 就 是 全 链接 网 络 。 下 面 是 TensorFlow 官 方 手写 识别 版 本 的 简化 ， 为 了 入 门 讲解 更 加 方便 这 里 修改 了 一 些 函 数 ， 具 体 见 代 码 清单 3-28: 
代码 清单 3-28 ” 单 层 全 链接 网 络 


# 引 入 库 

from tensorflow.examples.tutorials.mnist import input data 
import tensorflow as tf 

# 获 取 数 据 

mnist = input data.read data sets ("MNIST data/", one_hot=True) 
# 构 建 网 络 模 型 

#x, label 分 别 为 图 形 数据 和 标签 数据 

x = tf o float32, [None, 784]) 

label .placeholder (tf.float32, [None, 10]) 

# 构 建 单 层 2 中 的 权 值 和 偏 置 
W = tf.Variable (tf.zeros([784, 10])) 
b = tf.Variable (tf.zeros ([10])) 
Sua eile 性 激活 函数 

.matmul (x, W) + b 
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loss = tf.reduce mean (tf.square (y-label)) 

A FEA REE ARID: 

train step = tf.train.GradientDescentOptimizer (0.005) .minimize (loss) 
# 用 于 验证 

correct prediction = tf.equal (tf.argmax(y, 1), tf.argmax(label, 1)) 
accuracy = tf.reduce mean(tf.cast (correct prediction, tf.float32) ) 
# 定 义 会 话 

sess = tf.Session () 

# 初 始 化 所 有 变量 

sess.run(tf.global variables initializer ()) 

PERITE E 7 








for itr in range (3000): 
batch xs, batch ys = mnist.train.next batch (100) 
ess. run (train ste feed dict={x: batch xs, label: batch ys}) 
f itr ¢ 10 = 
erin en bd accuracy:"sitr, sess.run(accuracy, feed dict={x: mnist.test.images, 
label: mnist.test.labels}) ) 








S 
L 








首先 来 看 下 搭建 的 网 络 模型 ， 如 图 3-7 所 示 。 








图 3-7 图 形 展示 单 层 神 经 网 络 


当然 ,我 一 直 认 为 用 数学 手段 描述 更 为 简单 : 


Vfbatchsize, 10] — X[batchsize, 784] * W[784, 10] 十 Dio) (3.2 ) 
下 面 以 上 面 的 公式 为 基础 进行 进一步 的 讲解 ， 具 体 见 代码 清单 3-29: 


代码 清单 3-29 引入 库 





from tensorflow.examples.tutorials.mnist import input data 
import tensorflow as tf 


























首先 是 import 两 个 Python 库 ， 其 中 tensorflow.examples.tutorials.mnist 的 目的 在 于 产生 数据 ， 也 就 是 手写 识别 的 图 片 和 标签 。 其 中 标签 数字 为 一 个 长 度 为 10 的 向 量 ， 加 入 数字 为 7， 则 表示 向 量 的 第 7 
个 数字 为 1， 其 余数 字 为 0。 图 片 是 一 个 28x28 的 图 片 ， 而 存储 方式 为 一 个 长 度 为 784 的 一 维 数组 ， 如 图 3-8 所 示 。 


为 了 方便 理解 ， 请 参看 绘图 过 程 的 程序 ， 具 体 如 代码 清单 3-30: 
代码 清单 3-30 ”图 形 绘制 


import matplotlib.pyplot as plt 

import numpy as np 

# 获 取 数 据 

mnist = input data.read data sets ("MNIST data/", one hot=True) 
# 分 别 读 取 数据 中 的 图 片 数 据 和 标签 数据 
batch xs, batch ys = mnist.train.next batch (100) 
# 绘 图 过 程 7 = 





























fig = plt.figure () 
ax = fig.add_ subplot (221) 
ax.matshow (np. reshape (batch _xs[1], [28,28]), cmap=plt.get cmap ("Purples") ) 








ax = fig.add subplot (222) 

ax.matshow (np.reshape (batch xs[2], [28,28]), cmap=plt.get cmap("Purples") ) 
ax = fig.add subplot (223) 7 
ax.matshow (np. reshape (batch _xs[3], [28,28]), cmap=plt.get cmap ("Purples") ) 
ax = fig.add_ subplot (224) 
ax.matshow (np. reshape (batch xs[4], [28,28]), cmap=plt.get cmap ("Purples") ) 
plt.show () 
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图 3-8 手写 数字 训练 集 可 视 化 
之 后 进行 的 操作 为 定义 向 量 ， 第 一 步 中 定义 的 向 量具 体 见 代码 清单 3-31 : 


代码 清单 3-31 定义 placeholder 








#x，1label 分 别 为 图 形 数据 和 标签 数据 
F F] 















































x = tf.placeholder (tf.float32, [None, 784]) 
label = tf.placeholder (tf.float32, [None, 10]) 
这 里 的 向 量 是 一 个 placeholder， 因 为 X 和 label 在 训练 过 程 中 需要 不 断 进行 更 改 并 填 入 神经 网 络 之 中 。 由 于 TensorFlow 无 法 接 利用 python 的 列表 (list) ， 或 者 numpy 的 array， 然 而 在 训练 的 过 程 中 又 


需要 不 断 地 改变 x 和 y 的 值 ， 因 此 这 里 需要 一 个 placeholder， 用 于 不 断 接受 list 或 array。 对 于 x 的 参数 [None，784]， 其 代表 placeholder 的 shape， 其 中 第 一 个 参数 None， 代 表 每 次 输入 的 训练 数据 的 个 数 
是 不 确定 的 。 也 就 是 说 可 以 为 任意 多 个 数字 。 每 次 输入 训练 数据 的 个 数 称 为 batch_size， 这 是 一 个 非常 重要 的 概念 ， 训 练 过 程 是 以 梯度 迭代 的 方式 来 进行 的 ， 但 是 梯度 取决 于 我 们 的 输入 数据 ， 由 于 数据 具 
有 一 定 的 随机 性 ， 因 此 梯度 也 必然 带 有 一 定 的 随机 性 ， 所 以 在 训练 的 每 一 次 迭代 过 程 中 我 们 都 可 以 一 次 输入 多 个 样本 ， 通 过 多 个 样本 的 估计 更 好 地 约束 梯度 迭代 的 方向 ， 使 得 梯度 迭代 过 程 减少 一 定 的 随机 
性 ， 这 个 过 程 称 为 批量 学 习 ， 而 数据 量 的 大 小 则 称 为 批 尺寸 (batch_size) 。 相 应 的 ， 我 们 在 数学 章节 中 的 学 习 过 程 称 为 在 线 学 习 ， 也 即 每 次 输入 一 个 样本 进行 学 习 ， 可 以 参考 单 层 神经 网 络 的 公式 ， 具 体 
见 代码 清单 3-32。 


代码 清单 3-32 ”定义 变量 及 计算 











# 构 建 单 层 网 络 中 的 权 值 和 偏 置 
W = 















































tf.Variable (tf.zeros([784, 10])) 
b = tf.Variable (tf.zeros ([10])) 
# 本 例 中 无 非 线 性 激活 函数 
y = tf.matmul (x, W) + b 





这 个 部 分 就 是 我 们 构建 单 层 神经 网 络 的 过 程 ， 其 中 常 说 的 神经 网 络 权 值 就 是 一 个 二 维和 矩阵 W， 偏 置 b， 这 两 个 量 实际 上 就 是 我 们 整个 神经 网 络 中 需要 确定 的 东西 。 对 于 这 种 需要 确定 的 量 ， 一 般 采 用 
Variable 来 表示 。tf.Variable (tf.zeros ([784，10]) ) 返回 的 量 就 是 TensorFlow 中 的 Tensor， 可 以 将 其 当 作 和 矩阵 ， 其 实 其 就 是 和 矩阵。 定义 两 个 矩阵 的 乘法 tt.matmul (x, W) ，y 就 是 输出 的 预测 结果 。 
由 于 还 没有 具体 讲解 信息 灼 概念 ， 二 者 的 接近 程度 可 用 欧 氏 距离 来 表示 ， 当 然 多 分 类 问题 使 用 交叉 灶 更 加 合适 。 代 码 清单 3-33 为 采用 欧 氏 距离 表示 的 方法 ， 代 码 清单 3-34 为 采用 交叉 业 表 示 的 方法 : 


代码 清单 3-33 ”损失 函数 1 


# 定 义 损失 函数 为 欧 氏 距离 


loss = tf.reduce mean (tf.square (y-label)) 














代码 清单 3-34 ”损失 函数 2 


HE SAK PINS 
soft max = tf.nn.softmax(logit, axis=1) 
loss = tf£.reduce mean (-label*tf.log (soft max) ) 






































其 中 ，label 就 是 我 们 已 知 的 结果 ，y 是 神经 网 络 预测 的 结果 ， 我 们 的 期 望 是 二 者 越 接近 越 好 。 这 就 需要 定义 迭代 过 程 ， 代 码 如 下 : 
































# 用 梯度 迭代 算法 


train step = tf.train.GradientDescentOptimizer (0.005) .minimize (loss) 











这 里 需要 用 到 的 算法 就 是 梯度 迭代 算法 ， 其 中 和 迭代 步 长 为 0.005 (这 并 不 是 最 好 的 步 长 ) ， 这 个 步 长 的 选取 是 十 分 重要 的 ， 过 大 的 步 长 会 使 得 梯度 迭代 发 散 ， 也 就 是 loss 函 数 不 仅 没有 减少 反而 会 一 直 增 
大 ， 但 是 大 步 长 会 使 得 迭代 速度 加 快 ， 而 过 小 的 迭代 则 会 使 得 收敛 速度 缓慢 ， 如 何平 衡 是 一 个 不 断 试验 的 过 程 ， 而 运 代 优 化 器 的 目标 就 在 于 求解 最 优 的 W 和 b。 


























实际 上 到 此 为 止 ， 计 算 过 程 都 没有 执行 ， 我 们 只 是 在 “描述 ”这 个 计算 过 程 ，TensorFlow 中 将 此 称 为 计算 图 。TensorFlow 的 优点 就 在 于 此 ， 其 并 没有 直接 利用 Python 语言 去 执行 计算 ， 因 为 Python 是 
计算 速度 很 慢 的 语言 ， 而 是 用 Python 去 描述 计算 图 ， 具 体 的 执行 则 需要 放 到 C+ + 的 框架 之 中 ， 因 此 需要 一 个 回话 来 执行 所 有 描述 的 过 程 ， 具 体 见 代码 清单 3-35 : 

代码 清单 3-35 ”初始 化 定义 

# 定 义 会 话 

sess = tf.Session() 

# 初 始 化 所 有 变量 

sess.run(tf.global variables initializer()) 

同样 地 ， 我 们 在 描述 计算 过 程 的 时 候 ， 甚 至 于 都 没有 为 运算 过 程 的 向 量 分 配 内 存 空间 ， 所 以 在 整个 程序 的 运行 过 程 中 需要 进行 变量 的 初始 化 工作 。 然 后 再 用 会 话 (session) 来 执行 这 个 过 程 ， 需 要 再 次 


提醒 的 是 ， 我 们 提 到 的 绝 大 部 分 操作 都 需要 利用 会 话 来 执行 ， 否 则 只 是 描述 了 需要 进行 相应 的 计算 而 已 。 最 后 我 们 来 看 一 下 迭代 过 程 ， 具 体 见 代码 清单 3-36: 
代码 清单 3-36 ”迭代 训练 过 程 


PERITE 
for itr in range (500): 
batch xs, batch ys = mnist.train.next batch (100) 
sess.run (train step, feed dict={x: batch xs, label: batch ys}) 
if itr s AO S50: x p 

print ("step:%6d accuracy:"%itr, sess.run (accuracy, feed dict={x: mnist.test.images, label: mnist.test.labels})) 


























由 代码 清单 3-36 可 以 看 到 ， 我 们 执行 的 每 个 过 程 都 需要 sess.run 函 数 来 运行 。TensorFlow 采 取 feed 机 制 ， 也 就 是 在 执行 过 程 中 不 断 地 输入 相应 的 训练 数据 ， 此 时 placeholder 的 作用 就 体现 了 出 来 ， 其 
用 于 接收 我 们 传 入 的 量 ， 这 个 量 可 以 是 numpy 的 array 或 者 是 Python 的 list。 这 里 feed 的 量 用 字典 来 表示 就 是 feed_dict={x: batch_xs, label: batch_ys}。 由 下 面 的 输出 可 以 看 到 在 迭代 500 次 之 后 准确 率 
达到 了 80”%， 当 然 继 续 和 迭代 准确 率 还 会 更 高 ， 不 过 准确 率 也 有 极限 ， 具 体 见 下 面 的 输出 结果 : 





如 果 想 要 看 权 值 W 的 一 些 数值 ， 我 们 需要 获取 W 的 值 : 





W.value () 
但 是 前 面 说 到 过 ， 到 此 只 是 描述 了 计算 ， 并 没有 执行 ， 因 此 需要 会 话 来 进行 操作 ， 有 具体 见 代码 清单 3-37: 
代码 清单 3-37 ”获取 W 取 值 


W value = sess.run (W.value () ) 
如 图 3-9 所 示 的 为 权 值 W 的 向 量 图 形 绘制 图 。 
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图 3-9” 权 值 向 量 图 形 绘制 
由 图 3-9 可 以 大 致 看 到 权 值 代表 了 什么 ， 注 意 上 面 的 过 程 都 是 没有 经 过 优化 的 ， 所 以 友 代 效果 可 能 并 不 是 很 好 。 当 然 我 们 可 以 将 一 个 单 层 全 链接 网 络 (做 成 一 个 函数 ) ， 具体 见 代 码 清单 3-38: 
代码 清单 3-38 “全 链接 层 函 数 


# 定 义 全 链接 层 函 数 
def full layer (input tensor, out dim, name='full'): 
with tf£.variable scope (name) : 
shape = input tensor.get shape().as list () 
im out dim), dtype=tf.float32, initializer=tf.truncated_ normal initializer (stddev=0.1) ) 
dtype=tf.float32, initializer=tf.constant initializer (0) ) 





























W = tf.get variable('W', (shape[1], 

b = tf.get variable('b', [out dim], 

out = tf.matmul (input tensor, W) + b 
return tf.nn.sigmoid (out) 





















































如 此 即 可 简化 整个 全 链接 网 络 的 建立 过 程 。 


3.6 CNN 构 建 


CNN 的 构建 方式 与 全 链接 网 络 类似 ， 但 是 因为 存在 权 值 共享 的 过 程 ， 因 此 在 计算 的 过 程 中 输入 矩阵 W 的 维度 更 小 。 在 全 链接 网 络 中 ， 数 据 的 处 理 顺 序 公 式 如 下 : 


Ym =f (Amn ` f Bnp ` J (Coq * Xq))) 


其 中 X 是 数据 ，ABC 是 矩阵， 和 矩 阵 中 的 所 有 元 素 都 是 需要 兴 代 优化 的 ， 这 样 自由 参数 的 个 数 就 达到 了 mxn+nxp+pxq 个 ， 随 着 层 数 的 增多 ， 参 数 呈 指数 级 的 增长 。 参 数 | 


( 3.3) 


曾 多 是 一 件 非 常 可 怕 的 事情 。 这 


种 时 候 一 个 最 简单 的 解 题 思路 出 现 了 ， 因 为 最 近 的 一 个 数据 点 只 与 其 临近 的 点 有 关 ， 所 以 连接 数 可 以 进行 降低 ， 每 一 层 神经 元 只 与 其 附近 的 神经 元 相连 。 那 么 对 于 矩阵 来 说， 应 该 垮 么 表示 呢 ? 
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更 进一步 的 ， 对 于 波形 或 者 其 他 形式 的 数据 而 言 ， 在 过 去 我 们 有 一 个 常用 的 概念 ， 
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(3.5) 


就 是 波形 的 变换 ， 比 如 说 常用 的 传 里 叶 变 换 、 小 波 变换 等 ， 图 像 有 二 维 小 波 、 二 维 传 里 叶 等 变换 。 这 些 变换 的 形式 虽 


有 不 同 ， 但 是 其 核心 思想 却 是 一 致 的， 就 是 利用 基 函 数 对 于 波形 进行 展开 。 对 于 传 里 叶 变 换 其 基 函 数 是 sin、cos; 对 于 小 波 则 是 小 波 基 函 数 。 这 些 展开 代表 了 我 们 看 待 问题 的 方式 不 是 基于 单个 数据 点 的 ， 
而 是 基于 整体 数据 提取 一 些 特征 (BABAR) ， 可 以 说 是 一 个 整体 的 思考 方式 。 类 比 于 人 类 的 思考 方式 ， 我 们 看 到 一 个 事物 ， 并 不 是 逐个 像素 点 地 去 分 析 和 提取 特征 ， 而 是 从 事物 的 大 致 轮廓 和 形状 


去 提取 特征 。 总 的 来 说 ， 波 形 的 变换 大 致 如 此 。 同 时 还 可 以 看 到 ， 侍 里 叶 变 换 中 sin、cos 是 不 变 的 ， 也 就 是 用 于 提取 特征 的 感受 器 是 不 变 的 。 


类 比 于 上 面 的 思维 过 程 ， 我 们 继续 思考 上 面 简化 过 程 的 神经 网 络 ， 如 上 所 言 
一 样 的 。 我 们 只 用 了 一 个 3x 3 的 矩 阵 ， 就 代表 了 整个 迭代 过 程 的 卷 积 核心 也 就 是 权 值 ， 这 时 参数 数目 不 可 谓 多 。 同 时 正如 前 文 所 说 的 ， 基 六 数 可 能 不 止 一 套 ， 所 以 这 里 可 以 用 几 种 基 函 数 去 适 配 ， 卷 积 神经 
网 络 将 其 称 为 通道 (大致 可 以 这 么 理解 ) 。 


下 面 以 手写 识别 的 例子 作为 说 明示 例 ， 具 体 见 代码 清单 3-39: 


代码 清单 3-39 CNN 手写 识 别 


# 预 读 取 MNIST 手 写字 库 
































import tensorflow as 





























def weight variable (shape): 














initial=tf.truncated normal (shape, stddev=0.1) 





# 正 态 分 布 











# 用 正 态 分 布 随机 数 初始 化 变量 ， 本 例 中 仅 作为 权 值 


from tensorflow.examples.tutorials.mnist import input data 


mnist=input_data.read_ data_sets('MNIST data',one_hot=True) 


， 特 征 提取 的 感受 器 是 不 变 的 ， 


那么 我 们 可 以 假设 一 层 神经 元 中 的 每 个 权 值 都 是 相同 的 ， 也 就 是 矩阵 行 向 量 中 的 每 一 层 都 是 


r 





eturn tf.Variable (initial) 











ad 














# 用 常量 方式 初始 化 偏 置 






































































































































def bias variable (shape): 
initial=tf.constant (0.1, shape=shape) 
# 常 数 分 布 
return tf.Variable (initial) 
# 定 义 二 维 卷 积 的 过 程 
def conv2d (x,W) : 
return tf.nn.conv2d(x,W, strides=[1,1,1,1],padding='SAME") 
定义 池 化 层 ， 简 单 来 说 就 是 选 个 最 大 的 数 ， 进 一 步 降 低 自由 参数 的 个 数 。 
def max pool 2x2 (x): 
return tf.nn.max pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1], padding='SAME') 
x=tf.placeholder (tf.float32, shape=[100, 784] ) 
y=tf.placeholder (tf.float32, shape=[100,10]) 
W convl=weight variable ([5,5,1,32]) 
b convl=bias variable ([32]) 
x image=tf.reshape (x, [-1,28,28,1]) 
y_convl=tf.nn.relu(conv2d (x image,W convl)+b conv1) 
y pooll=max pool 2x2(y conv1) 
W conv2 = weight variable([5, 5, 32, 64]) 
b conv2 = bias variable ([64]) 
y conv2 = tf.nn.relu(conv2d(y pooll, W conv2) + b conv2) 


y pool2 = max pool 2x2 (y conv2) 




























































































fcl)) 





y fc flat= tf.reshape(y pool2, [-1,7*7*64]) 

W fcl = weight variable([7*7*64, 10]) 

b fcl = bias variable ([10]) 

y fcl=tf.nn.relu(tf.matmul(y fc flat,W fcl)+b fcl) 

cross entropy t£.reduce mean (tf.nn.softmax cross entropy with logits (labels=y, logits=y_ 
train step = tf.train. AdamOptimizer (le- 4) .minimize (cross entropy) 





sess=tf.Session () 

















init = tf.global variables initializer () 


sess.run (init) 
for ji 








in range (1000): 








bx, by=mnist.train.next batch (100) 


S 


ess.run(train step, 


import oo as np 




















import m t 
# 设 置 输出 风格 ,为 画图 美观 
import matplotlib as mpl 




















feed _dict={x:bx, y:by}) 


lib.pyplot as plt 


[5,5,32]) 


mpl.style.use ('seaborn-darkgrid"') 
val=W_convl.value () 
convVal=np.array (sess.run (val) ) 
convVal=np. reshape (convVal, 
plt.imshow (convVal[:,:,6]) 
plt.show () 








识别 的 过 程 中 ， 四 维 变 


代码 清单 3-40 BRD 


convl_ shape= 


任意 选 


代码 清单 3-41 


val=W_convl.value () 


convVal 
convVal 


最 终 得 到 的 图 形 如 图 3-10 所 示 。 





[5,5,1,32] 


量 的 参数 具体 见 代 码 清单 3-40: 


取 一 个 特征 的 权 值 绘制 成 图 ， 具 体 见 代码 清单 3-41: 


获取 卷 积 核心 取 值 


=np.array (sess.run (val)) 
=np. reshape (convVal, 


[5,5,32]) 





图 3-10” 卷 积 核心 权 值 展 示 


由 图 3-10 可 以 看 到 ， 手 写 数字 实际 上 都 是 由 上 述 图 形 的 所 加 权 组 合 而 成 的 。 当 然 对 于 整个 卷 积 函数 来 说 ， 我 们 依然 可 以 将 其 封装 成 一 个 独立 的 函数 ， 具 体 见 代码 清单 3-42 : 
代码 清单 3-42 ARM 


# 卷 积 函 数 
def conv2d layer (input tensor, size=1, feature=128, name='convld'): 
with tf.variable scope (name) : 
shape = input tensor.get shape().as list () 
kernel = tf.get variable ('kernel', 
(size, size, shape[-l], feature), 
d j 


type=tf.float32, i : 
initializer=tf.truncated_normal_initializer (stddev=0.1) )# 初 始 化 值 很 重要 ,不 好 的 初始 化 值 比如 文章 中 的 初始 化 值 会 使 得 迭代 收敛 极为 缓慢 。 
b = tf.get variable('b', [feature], dtype=tf.float32, initializer=tf.constant initializer (0) ) 

out = tf.nn.conv2d(input tensor, kernel, strides=[1, 2, 2, 1], padding='SAME') + b 


return tf.nn.relu (out) 




























































































3.7 RNN 构 建 


对 于 RNN 而 言 ， 其 相 比 于 传统 的 神经 网 络 的 不 同 之 处 在 于 其 多 了 时 序 信息 的 存储 项 。 具 体 的 过 程 可 以 描述 为 : 


h; = f (Xn f1) ( 3.6 ) 


gh 


其 中 f 为 激活 函数 ， 在 循环 神经 网 络 之 中 ， 激 活 函 数 可 以 使 用 tanh 作 为 激活 函数 f (x) =e 花 ”， 这 样 ht 就 可 以 用 于 保存 状态 ,实际 上 整个 的 函数 可 能 展开 来 写 更 加 简单 : 


ht = f (wx © x, + wa? h1) (3.8 ) 


这 是 在 全 链接 网 络 上 加 入 了 记忆 项 。 这 就 使 得 在 TensorFlow 的 实现 中 用 到 了 许多 的 辅助 函数 ， 用 于 整个 RNN 的 构建 。 这 里 首先 需要 了 解 的 是 RNN 的 函数 ， 具 体 见 代 码 清单 3-43: 





代码 清单 3-43 ” 几 种 场景 的 RNN 遂 数 





# 基 本 的 RNN 形 式 
cell = tf 


tf.nn.rnn cell.BasicRNNCell (6) 
#LSTM 形 式 




































































cell = tf.nn.rnn cell.BasicLSTMCell(6, state is tuple=True) 
#GRU 形 式 
cell = tf£.nn.rnn_cell.GRUCel1 (6) 





上 面 的 函数 是 一 些 常 用 的 RNN 的 形式 ， 基 本 的 RNN 形 式 就 是 上 述 公 式 所 描述 的 RNN 形 式 。 而 其 他 的 RNN 形 式 是 在 其 基础 上 所 做 的 改进 形式 。 图 3-11 展 示 的 是 LSTM 网 络 结构 。 
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图 3-11 LSTM 网 络 结构 


图 3-11 是 LSTM 的 网 络 结构 形式 ， 可 以 看 到 其 是 在 传统 的 RNN 形 式 之 上 加 入 了 记忆 层 ， 用 于 保存 记忆 ， 从 另 一 个 角度 来 讲 ， 这 种 形式 的 RNN 含 有 更 多 的 可 训练 参数 ， 这 使 得 其 能 拟 合 的 曲面 更 加 复杂 ， 
也 就 是 我 们 所 说 的 表达 能 力 更 强 。 

图 3-12 是 GRU 网 络 形式 ， 其 结构 也 很 复杂 ， 可 以 看 作 是 LSTM 的 变 式 。 相 比 于 传统 的 RNN 形 式 其 依然 有 自己 的 特点 ， 这 些 特点 首先 表现 在 参数 数量 上 ， 另 外 相 比 于 LSTM 形 式 ， 其 省 略 了 记忆 层 ， 通 常 
来 说 其 效果 更 加 优秀 。 
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图 3-12” GRU 网 络 结构 
RNN 是 可 以 存在 多 个 层 的 ， 不 过 这 需要 辅助 函数 来 进行 ， 具 体 见 代码 清单 3-44: 


代码 清单 3-44 多 层 RNN 





# 两 层 RNN 形 式 


cell = tf£.nn.rnn cell.MultiRNNCell ([cell] * 2, state is tuple=True) 














在 使 用 过 程 中 需要 按照 时 间 步 去 迭代 产生 输出 ， 具 体 见 代码 清单 3-45 : 


代码 清单 3-45 ”按照 时 间 步 输入 














state = cell.zero state (batch size, tf.float64) 





outputs = [] 

for time step in range (10): 
# 在 TensorFlow 的 早期 版 本 中 ,需要 取消 注释 使 得 变量 可 以 复 用 
#if time step > 0: tf.get variable scope () .reuse variables () 
(cell output, state) = cell(indata[:, time step, :], state) 
outputs .append (cell output) 







































































当然 现 有 简单 的 函数 也 可 以 帮助 完成 这 个 过 程 ， 具 体 见 代码 清单 3-46: 


代码 清单 3-46 ”函数 封装 














outputs, last state = tf.nn.dynamic rnn(cell, indata, initial state=state) 


至 此 ，outputs 就 是 整个 RNN 的 输出 ， 我 们 可 以 利用 这 些 输出 去 完成 相应 的 预测 任务 。 


3.8.1 GPU 使 用 


使 用 GPU 可 以 加 速 深 度 学 习作 业 的 训练 速度 ， 用 户 可 以 通过 如 下 方式 进行 TensorFlow 或 keras 使 用 GPU。 
如 果 服 务 器 有 多 个 GPU， 那 么 TensorFlow 默 认 使 用 全 部 。 如 果 只 想 使 用 部 分 GPU， 那 么 可 以 设置 CUDA VISIBLE DEVICES, 


Python 程序 启动 时 调用 : 








CUDA VISIBLE DEVICES=0.2.3 python script.py 


























上 面 一 行 代码 将 配置 GPU 0、2、3 可 以 使 用 ， 设 备 CPU 1 不 可 见 。 


Python 代码 内 进行 调用 : 





import os 
os.environ["CUDA VISIBLE DEVICES"] = "1" 
































上 面 代码 使 用 GPU 1, 
配置 GPU 显存 : 


某 些 情况 下 ， 多 作业 或 者 共享 GPU 的 场景 中 ， 可 以 控制 TensorFlow 使 用 GPU 显存 大 小 。TensorFlow 默 认 会 使 用 尽 可 能 多 的 显存 。 配 置 使 用 CPU 的 方法 具体 见 代码 清单 3-47: 


代码 清单 3-47 ”配置 使 用 GPU 








gpuOptions = tf.GPUOptions (per process gpu memory fraction=0.8) 
sess = tf.Session(config=tf.ConfigProto (gpu_options=gpuOptions) ) 




















上 面 分 配给 TensorFlow 的 GPU 显存 大 小 为 : GPU 显存 *0.8。 代 和 码 清单 3-48 为 GPU 代码 的 运行 实例 : 


代码 清单 3-48 GPU 运行 代码 































































































# 将 变量 的 定义 和 分 配 定 义 到 GPU 上 进行 
with tf.device('/gpu:0"') 

W = tf.get variable('W', (in dim, out dim), 
dtype=tf.float32, 
initializer=tf.truncated normal initializer (stddev=0.1) ) 

b = tf.get variable('b', [out dim], 
dtype=tf.float32, 
initializer=tf.constant initializer (0) ) 
net = tf.matmul (input tensor, W) + b 
# 在 CPU 上 计算 激活 函数 
with tf.device('/cpu:0"') 
net = tf.nn.sigmoid (net) 




















代码 清单 3-48 是 对 于 全 链接 网 络 的 修改 ， 这 里 是 将 不 同 的 计算 任务 分 配 到 不 同 的 计算 节点 之 上 。 代 码 中 隐 去 了 TensorFlow 将 计算 结果 传递 到 CPU 之 中 的 计算 过 程 ， 这 就 使 得 我 们 只 需 对 于 其 进行 简单 的 
计算 流 图 的 描述 即 可 。 


使 用 GPU 可 以 加 速 深度 学 习作 业 的 训练 速度 ， 用 户 可 以 通过 如 下 方式 进行 TensorFlow 或 Keras 使 用 GPU。 
如 果 服 务 器 有 多 个 GPU， 那 么 TensorFlow 默 认 使 用 全 部 。 如 果 只 想 使 用 部 分 GPU， 那 么 可 以 设置 CUDA VISIBLE DEVICES, 


Python 程序 启动 时 调用 : 





CUDA VISIBLE DEVICES=0.2.3 python script.py 


























上 面 一 行 代码 将 配置 CPU 0、2、3 可 以 使 用 ， 设 备 CPU 1 不 可 见 。 


Python 代码 内 进行 调用 : 


import os 
os.environ["CUDA VISIBLE DEVICES"] = "1" 





























上 面 代码 使 用 GPU 1, 
配置 GPU 显存 : 
基 些 情况 下 ， 多 作业 或 者 共享 GPU 的 场景 中 ， 可 以 控制 TensorFlow 使 用 GPU 显存 大 小 。TensorFlow 默 认 会 使 用 尽 可 能 多 的 显存 。 配 置 使 用 GPU 的 方法 具体 见 代码 清单 3-47 : 


代码 清单 3-47 ”配置 使 用 GPU 








gpuOptions = tf.GPUOptions (per process gpu memory fraction=0.8) 
sess = tf.Session (config=tf.ConfigProto (gpu_options=gpuOptions) ) 




















上 面 分 配给 TensorFlow 的 GPU 显存 大 小 为 : GPU 显存 *0.8。 代 码 清单 3-48 为 GPU 代码 的 运行 实例 : 


代码 清单 3-48 GPU 运行 代码 































































































# 将 变量 的 定义 和 分 配 定义 到 GPU 上 进行 
with tf.device('/gpu:0"') 

W = tf.get variable('W', (in dim, out dim), 
dtype=tf.float32, 
initializer=tf.truncated normal initializer (stddev=0.1) ) 

b = tf.get variable('b', [out dim], 
~ dtype=tf.float32, 
initializer=tf.constant initializer (0) ) 
net = tf.matmul (input tensor, W) + b 
# 在 CPU 上 计算 激活 函数 
with tf.device('/cpu:0"') 
net = tf.nn.sigmoid (net) 




















代码 清单 3-48 是 对 于 全 链接 网 络 的 修改 ， 这 里 是 将 不 同 的 计算 任务 分 配 到 不 同 的 计算 节点 之 上 。 代 码 中 隐 去 了 TensorFlow 将 计算 结果 传递 到 CPU 之 中 的 计算 过 程 ， 这 就 使 得 我 们 只 需 对 于 其 进行 简单 的 
计算 流 图 的 描述 即 可 。 


3.8.2 ”多 CPU 使 用 
对 于 多 个 GPU、CPU 的 情况 ， 我 们 可 以 利用 标号 进行 简单 的 区 分 并 运行 ， 具 体 见 代码 清单 3-49: 
代码 清单 3-49 ”多 设备 计算 


# 在 CPUO 上 计算 
with tf.device('/cpu:0') 














net tf.nn.sigmoid (net) 
# 在 CEUL 上 计算 
with tf.device('/cpu:1"') 




















net = tf.nn.sigmoid (net) 


对 于 在 集群 上 进行 的 运行 ， 需 要 在 多 个 主机 上 准备 多 份 代码 ， 这 个 代码 大 部 分 都 是 相同 的 ， 前 面 的 部 分 相同 ， 只 是 后 续 有 所 不 同 而 已 ， 具 体 见 代码 清单 3-50: 
代码 清单 3-50 ”定义 多 主机 运行 参数 


# 这 里 的 地 址 形式 为 ”IP:Port 
cluster = tf.train.ClusterSpectf.train.ClusterSpec (1 
"worker": [ 
"XX.XX.XX.XKI2222", # /job:worker/task:0 
"xx.XX.XX.XX:2222", # 这 里 job 的 名 称 为 自 定 义 
"XX.XX.XX.XX:2222" # task 编 号 同样 需要 在 Server 中 定义 























r 
"ps" : [ 
“XX XK KK KK 2222 
"NX XX, KK.XKIZ2222" 
]}) 


server = tf.train.Server (cluster, job name="worker", task index=0) 








对 于 第 二 个 主机 而 言 ， 程 序 内 容 修改 请 参见 代码 清单 3-51 : 


代码 清单 3-51 ”定义 第 二 个 主机 参数 














# 这 里 的 形式 地 址 的 形式 为 ”IP:Port 
cluster = tf.train.ClusterSpectf.train.ClusterSpec (1 
"worker": [ 
VRX KK XK 22220 # /job:worker/task:0 
"XX.XX.XX.XX:2222", # 这 里 job 的 名 称 为 自 定 义 
"XX.XX.XX.XX:2222" # task 编 号 同样 需要 在 Server 中 定义 




















XX XX. XX; XX:12222",; 
XX XX, XX XX: 2222™ 


] } 
# 仅 这 一 行 发 生 了 改变 


server = tf.train.Server (cluster, job name="worker", task index=1) 








在 程序 书写 的 过 程 中 可 以 使 用 的 方式 请 参见 代码 清单 3-52 : 


代码 清单 3-52 不 同 设备 的 运行 代码 





with tf.device('/job:worker/task:0/cpu:0'): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/0EBPS/Text/... 





























将 不 同 的 计算 任务 分 配 到 不 同 的 计算 节点 之 上 ， 同 样 可 以 利用 函数 来 进行 ， 具 体 见 代码 清单 3-53 : 


代码 清单 3-53 ”分配 计算 任务 








with tf.device(tf.train.replica device setter ( 


worker device="/job:worker/task:%d" % task_index, 
cluster=cluster) 











消 数 replica_deviec setter 会 将 变量 参数 的 定义 部 分 自动 定义 到 ps 服务 中 。 后 续 需 要 定义 Session ， 用 于 执行 整个 过 程 ， 有 具体 见 代 码 清单 3-54: 


代码 清单 3-54 ”多 主机 运行 





# 定义 句柄 ， 迭 代 到 多 少 步 之 后 停止 从 代 
hooks=[tf.train.StopAtStepHook (last step=1000000)] 
# MonitoredTrainingSession 函 数 会 完成 会 话 初 始 化 工作 
# 保存 checkpoint、 恢 复 checkpoint、 异 常 处 理 等 
# 这 里 需要 定义 master 主 机 ， 定 义 保 存 、 控 制 操 作 的 master 
with tf£.train.MonitoredIrainingSession (master-server.target, 
is chief=(task index == 0), 
checkpoint dir="dir/to/cp", 
hooks=hooks) as mon sess: 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/OEBPS/Text/... 
































在 程序 运行 过 程 之 中 ， 需 要 人 为 将 程序 分 配 到 各 个 主机 之 上 ， 依 次 运行 每 个 主机 上 的 程序 。 


3.9 ”队列 使 用 


队列 (queue) 是 TensorFlow 之 中 用 于 数据 读 取 和 处 理 的 重要 遂 数 ， 队 列 可 以 是 先进 先 出 队列 ， 也 可 以 是 随机 队列 ， 用 于 随机 化 输出 。 本 章 仪 介绍 其 基本 的 使 用 方法 ， 这 部 分 内 容 可 以 参考 
TensorFlow 的 官方 文档 。 


本 身 而 言 ，TensorFlow 的 会 话 是 支持 多 线程 的 ， 因 此 在 训练 的 过 程 中 ， 不 会 出 现 CPU 计 算 仅 占用 1/NCores 的 情况 ， 因 此 队列 的 操作 是 对 于 训练 前 的 过 程 而 言 的。 其 可 以 帮助 完成 如 下 几 项 任务 。 
1) 多 线程 数据 预 处 理 并 将 其 推 入 队列 。 

2) 在 执行 过 程 中 ， 队 列 不 断 地 提供 训练 数据 。 

这 里 使 用 一 个 简单 的 实例 进行 说 明 ， 具 体 见 代码 清单 3-55: 


代码 清单 3-55 ”队列 使 用 














def simple shuffle batch(source, capacity, batch size=10): 
# 定 义 随机 序列 
queue = tf.RandomShu 


























leQueue (capacity=capacity, 
min after dequeue=int (0.9*capacity), 
shapes=source.shape, dtypes=source.dtype) 











# 定义 enqueue 过 程 
enqueue = queue.enqueue (source) 
# 定义 执行 进程 个 数 


num threads = 4 

















qr = tf.train.QueueRunner (queue, [enqueue] * num threads) 
E 声明 Queue runner, WAAL AT 

tf£.train.add queue runner (qr) 

# 获取 数据 
return queue.dequeue many (batch size) 


# 产生 测试 数据 



































input = tf.constant (list (range (100))) 
input = tf.data.Dataset.from tensor slices (input) 
input = input.make one shot iterator () .get next () 


get batch = simple shuffle batch (input, capacity=20) 


























# 定义 session 

with tf.train.MonitoredSession() as sess: 
while not sess.should_stop(): 
print (sess.run (get batch) ) 




















队列 操作 可 以 使 得 数据 读 取 过 程 得 到 并 行 的 优化 ， 这 对 于 提升 程序 的 运行 速度 是 很 有 利 的 。 


3.10 Ass 


几乎 所 有 的 深度 神经 网 络 都 是 由 简单 的 全 链接 、CNN、RNN 等 基本 元 素 构 成 的 ， 而 深度 方向 发 展 还 需要 进行 一 些 网 络 结构 的 改进 ， 比 如 加 入 跨 层 支 路 ， 减 少时 间 步 等 。 但 是 这 些 操作 均 未 改变 基本 元 
素 ， 因 此 学 习 几 种 基本 的 网 络 结构 是 很 有 必要 的 ， 网 络 结构 是 我 们 搭建 深度 网 络 的 基础 。 


变量 的 统计 、 计 算 图 等 一 系列 的 函数 在 帮助 我 们 观察 网 络 训练 情况 时 展现 出 了 非常 重要 的 作用 ， 它 们 是 我 们 对 神经 网 络 进行 改进 优化 的 基础 。 


而 分 布 式 、 队 列 操作 则 属于 对 大 规模 网 络 、 数 据 进行 并 行 处 理 的 方式 ， 这 对 于 网 络 的 训练 而 言 并 没有 多 大 的 影响 。 


第 4 章 TensorFlow 进 阶 


前 面 提 到 了 两 部 分 的 内 容 : 第 一 部 分 是 神经 网 络 训练 过 程 的 观察 与 改进 ， 其 中 最 重要 的 就 是 梯度 的 观察 与 分 析 ; 另外 一 部 分 是 使 用 基本 的 CNN、RNN 元 素 去 搭建 深度 神经 网 络 ， 本 章 将 会 对 这 两 部 分 的 
内 容 进 行 详细 讲解 。 


上 述 两 个 部 分 的 内 容 是 相辅相成 的 ， 因 为 梯度 问题 是 深度 神经 网 络 中 必然 会 遇 到 的 问题 ， 而 且 已 经 有 很 多 文章 提出 了 对 其 进行 改进 的 方式 并 取得 了 不 错 的 成 果 。 这 也 是 深度 神经 网 络 学 习 的 关键 所 在 。 


4.1 TensorFlow 架 构 与 原理 


前 文中 提 到 过 ， 对 于 TensorFlow， 其 是 利用 数据 流 图 的 方式 来 描述 和 控制 计算 过 程 的 ， 因 此 正如 前 文 所 言 ， 变 量 相对 来 说 是 很 重要 的 概念 ， 其 在 神经 网 络 之 中 也 可 以 称 为 自由 参数 ， 参 数 在 
TensorFlow 之 中 是 用 Tensor 的 形式 来 表示 的 。 


对 于 简单 的 


y= ReL 


计算 用 计算 图 可 以 描述 为 如 图 4-1 所 示 的 图 示 。 











图 4-1 计算 图 示意 


否 回收 Tensor， 这 点 与 Python 本 身 的 消息 回收 机 制 相同 。 


TensorFlow 可 以 将 不 同 的 节点 分 配 到 不 同 的 核心 、 设 备 、 计 算 节 点 之 中 。 如 前 文 所 言 ， 为 了 实现 这 种 分 布 式 方式 ，TensorFlow 采 用 Master-Sslave 的 方式 进行 任务 的 分 配 和 执行 ， 如 图 4-2 所 示 ， 对 于 不 
同 的 计算 任务 ， 有 一 主 进程 用 于 分 配 任务 ， 任 务 开始 之 后 ， 各 个 节点 之 间 可 以 进行 通信 。 跨 设备 运行 的 执行 过 程 中 ， 通 信 过 程 是 隐 式 的 ， 如 图 4-3 所 示 。 
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图 4-2 主 从 模式 执行 方式 





Device B 


Device A Device A 





图 4-3 ”执行 过 程 中 的 消息 传递 过 程 


在 TensorFlow 的 分 布 式 执行 过 程 之 中 ， 由 于 计算 资源 是 分 配 在 不 同 的 设备 之 上 ， 因 此 需要 进行 通信 ， 而 消息 传递 的 过 程 是 不 需要 master 节 点 参与 的 ， 这 可 以 有 效 地 减低 master 的 负载 消耗 ， 其 只 需要 
控制 整个 运算 过 程 就 可 以 了 。 在 消息 传递 的 过 程 中 ， 对 于 一 些 计 算 资 源 ，TensorFlow 是 合并 后 再 进行 传递 的 ， 如 图 4-4 所 示 ， 这 可 以 有 效 地 降低 消息 传递 的 消耗 。 而 这 一 切 的 过 程 都 是 TensorFlow 帮 助 我们 
自动 完成 的 ， 并 不 需要 我 们 显 式 地 去 完成 整个 消息 的 传递 过 程 。 这 无 疑 降低 了 编程 的 门槛 。 分 布 式 计算 过 程 之 中 ， 最 重要 的 是 Send/Recv 过 程 的 信息 传递 与 处 理 ， 以 及 解决 消息 依赖 问题 。 对 于 执行 过 程 中 
出 现 的 错误 ，TensorFlow 可 以 保存 部 分 信息 用 于 重建 整个 计算 过 程 。 整 个 神经 网 络 的 计算 过 程 就 是 一 个 基于 梯度 的 计算 过 程 ， 在 TensorFlow 中 ， 梯 度 计算 之 后 还 需要 进行 参数 更 新 ，TensorFlow 之 中 有 单 
独 的 节点 用 于 权 值 存储 和 分 配 。 
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图 4-4 梯度 计算 


TensorFlow 需 要 为 变量 计算 梯度 。 计 算 梯度 之 后 需要 进行 更 新 ， 这 里 参数 的 更 新 分 为 同步 和 异步 两 种 方式 进行 ， 如 图 4-5 所 示 。 
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Asynchronous Data Parallelism 
图 4-5 计算 梯度 后 更 新 参数 


同步 更 新 是 每 个 节点 均 计算 梯 度 之 后 对 权 值 进行 更 新 ， 这 一 点 与 传统 的 批 学 习 类 似 。 还 有 一 部 分 工作 方式 是 异步 并 行 ， 这 种 并 行 方式 是 对 每 个 模型 计算 的 参数 直接 进行 更 新 ， 而 不 必 等 待 其 他 节点 完 
成 ， 这 是 一 个 非 阻塞 的 过 程 ， 因 此 其 运行 效率 更 高 。 


4.2 TensorFlow 扩 展 


对 于 TensorFlow 来 说 ， 其 人 存在 一 些 辅助 函数 可 用 于 帮助 简化 整个 网 络 的 建立 过 程 。 这 里 介绍 几 种 简化 程序 书写 的 方式 。 


4.2.1 TF Layers 

TensorFlow 提 供 的 layers 模 块 包 含 了 一 些 高 层次 的 APl， 它 们 可 以 显著 地 减少 编写 程序 的 代码 量 ， 其 包含 了 全 链接 网 络 、 卷 积 网 络 等 相关 函数 ， 在 前 面 ， 我 们 已 经 对 于 TensorFlow 遂 数 实现 全 链接 网 络 
和 卷 积 网 络 做 了 说 明 ， 这 里 用 TF layers 的 函数 进行 改写 。 

对 于 全 链接 网 络 而 言 ， 原 始 实现 中 需要 自行 定义 权 值 W 和 偏 置 b， 具 体 见 代码 清单 4-1: 


代码 清单 4-1 全 链接 网 络 





# layers 定 义 全 链接 网 络 


net = tf.layers.dense (inputs=net, units=units, activation=tf.nn.relu) 




















上 述 过 程 直接 定义 了 一 个 全 链接 网 络 ， 函 数 为 tf.layers.dense， 其 辅助 完成 了 变量 定义 、 乘 积 ， 以 及 激活 函数 的 过 程 ， 可 以 看 到 ，tf.layers 极 大 地 简化 了 代码 的 编写 。 
对 于 卷 积 网 络 而 言 ， 其 实现 过 程 与 代码 清单 4-1 的 方式 类 似 ， 具 体 见 代码 清单 4-2 : 


代码 清单 4-2 ” 卷 积 网 络 








net = tf.layers.conv2d ( 

inputs=net, # 输 入 
filters=n feature, # 输 出 特征 数 
kernel size=[5, 5], # 卷 积 核心 大 小 
padding="same", PAJ 
activation=tf.nn.relu) # 激 活 函 数 
































从 以 上 代码 中 ， 可 以 看 到 用 tf.layers 大 大 简化 了 卷 积 的 实现 过 程 ， 


对 于 layers 类 来 说 ， 其 还 包含 了 其 他 常用 的 辅助 函数 ， 包 括 池 化 、 








而 且 其 所 实现 的 效果 与 原 有 的 卷 积 过 程 是 一 样 的 。 


dropout 等 ， 具 体 见 代码 清单 4-3: 


















































































































































代码 清单 4-3 ”前 馈 神经 网 络 函 数 
# 二 维 最 大 池 化 
net = tf.layers.max pooling2d (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/OEBPS/Text/...) 
# 二 维 平均 池 化 7 加 
net = tf.layers.average pooling2d (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/OEBPS/Text/...) 
# 三 维 卷 积 T F 
net = tf.layers.conv2d (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/OEBPS/Text/...) 
# dropout 
net = tf.layers.dropout () 
# 展开 
net = tf.layers.flatten (http: //www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/0EBPS/Text/...) 
# BATCHNORM 
net = tf.layers.batch normalization (http: //www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/OEBPS/Text/...) 
利用 上 述 函 数 可 以 对 程序 进行 改写 ， 使 得 整体 实现 更 加 简洁 优雅 。 
4.2.2 TF Slim 
TensorFlow 提 供 的 slim 模 块 包含 了 一 些 高 层次 的 AP1，slim 与 layers 一 样 ， 可 以 辅助 完成 整个 前 馈 神经 网 络 的 书写 ， 其 同样 也 包含 了 全 链接 网 络 、 卷 积 了 网络 等 相关 六 数 ， 同 样 也 可 以 利用 slim 对 全 链接 网 


络 进 行 改写 。 
利用 TensorFlow 底 层 AP| 实 现 的 CNN 了 水 数 ， 


代码 清单 4-4 ”原始 CNN 实 现 









































具体 见 代 码 清单 4-4: 
































































































































































































































# 卷 积 函 数 
def conv2d layer (input tensor, size=l, feature=128, name='convld'): 
with tf.variable scope (name) : 
shape = input_ tensor.get | ee list () 
kerne] tf.get variable('kernel', | 
(size, size, shape[-1], feature), 
dtype=tf.float32, 
initializer=tf.truncated normal initializer(stdqdqev=0.1) )## 初 始 化 值 很 重要 ， 不 好 的 初始 化 值 (ECMO EP Ra EL) 22 AE TU BOR ABR o 
b = tf.get variable('b', [feature], dtype=tf.float32, initializer=tf.constant initializer (0) ) 
out = tf.nn.conv2d(input tensor, kernel, strides=[1, 2, 2, 1], padding='SAME') + b 
return tf.nn.relu (out) 
# 全 链接 函数 
def full layer (input tensor, out dim, name='full'): 
with tf.variable "scope (name) : 
shape = input _ tensor.get_shape().as list () 
W = tf.get variable('W', (shape[1], out dim), dtype=tf.float32, initializer=tf.truncated normal initializer (stddev=0 
b= tf .get variable ('b', [out dim], dtype=tf.float32, initializer=tf.constant initializer (0) ) 
out = tfi.matmul (input tensor, W) + b 
return out 








代码 清单 4-4 所 展示 的 是 两 种 用 原始 函数 所 定义 的 卷 积 
的 函数 ， 因 此 二 者 具有 极 高 的 相似 性 ， 具 体 请 见 代 码 清单 4-5: 


代码 清单 4-5 slim 实 现 卷 积 







































































































































































# 引 入 slLim 库 
import tensorflow.contrib.slim as slim 
er 

lim.conv2d(inputs, 16, 4, stride=2, activation fn=tf.nn.relu, scope='conv1') 
FMA UAE 
net = tf.nn.max pool (net, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME') 
net = slim.conv2d (n net, 32, 4, 2 2, R fn=tf.nn.relu, scope='conv2') 
net = tf.nn.max pool (net, ksize=[1, 1], strides=[1, 2, 2, 1], padding='SAME') 
#flatten 层 ， 用 于 将 三 维 的 图 形 数据 展开 成 一 JE, 全 链接 层 
net = slim.flatten (net) 
# 全 链接 层 
y = slim.fully connected(net, 10, activation fn=line, 

scope='full', reuse=False) 
两 种 函数 均 为 简化 函数 定义 方式 的 函数 ， 因 此 在 需要 自己 根据 业务 逻辑 设计 代码 ， 并 且 需 要 持续 进行 维护 和 开发 的 时 候 ， 推 荐 使 用 TF Layers 与 Slim 进 和 
的 库 。 


4.2.3 TFLearn 


TFLearn 相 比 于 前 几 种 API， 其 抽象 层次 更 高 ，TFLearn 创 造 了 一 套 属 于 自己 的 语法 ， 代 码 可 读 性 更 好 ， 其 中 屏蔽 了 比较 难以 理解 的 东西 ， 同 样 的 ， 其 也 包含 了 常用 的 神经 


代码 清单 4-6 ”基础 网 络 结构 


EAFA 
































. 工 ) ) 


层 和 全 链接 层 ， 下 面 用 slim 方 式 来 定义 网 络 ， 可 以 看 到 slim 与 layers 所 定义 的 函数 基本 一 致 ， 事 实 上 slim 高 层次 API 在 实现 过 程 中 调用 的 就 是 layers 


本 机 器 学 习 。 下 面 介绍 几 种 非 TensorFlow 内 提供 


网 络 结构 ， 具 体 见 代码 清单 4- 
























































4 
net = ttlearn fully connected (http://w .hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/0EBPS/Text/ . 
ean earn.conv_2d (http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17708/OEBPS/Text/...) 

eas earn. lstm (http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17708/OEBPS/Text/...) 
Bees os yoann nc see ceca ee ecco 
































虽然 TFLearn 在 后 台 运 # 
有 具体 见 代码 清单 4-7: 


了 过 程 中 调用 的 是 TensorFlow， 但 是 其 是 


代码 清单 4-7 ”输入 函数 





IND 


个 完整 


整 的 生态 ， 在 程序 编写 过 程 中 不 要 引入 TensorFlow。 因 此 这 里 需要 使 用 的 并 非 placeholder， 而 是 TFLearn 自 定义 的 输入 函数 ， 


network = ti 








在 训练 过 程 











CITT 





代码 清单 4-8 ”优化 部 分 


# 定义 优化 过 程 


network = tf 











法 ， 而 是 直接 定义 问题 ， 











由 上 面 的 代码 清单 4-8 我 们 可 以 发 现 ， 通 











# 优 化 方法 


‘adam', 








name='target') 



























































代码 清单 4-9 ”完整 代码 

import tflearn 

rom tflearn.layers.core import input data, dropout, 
from tflearn.layers.conv import conv 2d, max pool 2d 
rom tflearn.layers. 

rom tflearn.layers.estimator import regression 
# 载 入 并 处 理 数据 

import tflearn.datasets.mnist as mnist 

















X, Y, testX 





, testY = mist. 


# 转换 为 二 维 图 形 


X = X.reshape([-l1, 28, 28, 












































load data (one hot=True) 





1]) 





这 样 就 可 以 简化 TensorFlow 中 定义 的 复杂 的 优化 代码 ， 具 体 见 代码 清单 4-8: 


learn. layers.estimator. regression (network, 

optimizer= 
learning rate=0.01，# 学 习 率 
loss='categorical crossen 


tropy', RAAZ 


前 过 TFLearn 定 义 函 数 的 过 程 十 分 简便 ， 因 此 代码 量 大 大 减少 ， 





flearn.input data(shape=[None, 28, 28, 1], name='input') 


fully connected 





normalization import local response normalization 



















































































































































































testX = testX.reshape([-l, 28, 28, 1]) 
# 建立 神经 网 络 
network = tflearn.input data(shape=[None, 28, 28, 1], name='input') 
network = conv 2d(network, 32, 3, activation='relu', regularizer="L2") 
network = max pool 2d(network, 2) 
network = local response normalization (network) 
network = conv 2d(network, 64, 3, activation='relu', regularizer="L2") 
network = max pool 2d(network, 2) 
network = local response normalization (network) 
network = fully connected (network, 128, activation="'tanh') 
network = dropout (network, 0.8) 
network = fully connected (network, 256, activation="tanh') 
network = dropout (network, 0.8) 
network fully connected (network, 10, activation='softmax') 
# 定义 优化 过 才 程 
network = =e ey 
optimizer="adam', 井 优 化 方法 
learning rate=0.01，# 学 习 率 
loss='categorical _ crossentropy'，# 损 失 函 数 
name='target') 
# 训练 过 程 
他 tflearn.DNN (network, tensorboard verbose=0) 
mode] oe ape: X}, {'target': Y}, n epoch=20, 
validation set=({'input': testX}, {'target': testY}), 
snapshot step=100, show metric=True, run_id='convnet mnist') 
可 以 看 到 整个 代码 量 相 比 于 TensorFlow 已 大 大 减少 ， 这 是 TFLearn 这 种 高 层次 API 的 优势 所 在 YE 


可 用 于 学 习 研 究 。 因 此 需 


4.2.4 Kera 


与 TFLearn 相 同 ，Keras 同 样 也 属于 高 层次 AP1， 其 创造 了 一 套 属于 自己 的 语法 ， 代 码 可 读 性 更 好 ， 
， 而 且 有 个 人 维护 的 中 文 文档 。 但 是 其 可 扩展 性 较 差 。 


对 于 常见 的 神 


S 


代码 清单 4-10 引入 库 


from keras. 








from keras. 








与 前 面 几 种 方式 有 所 不 同 的 是 ，Keras 可 以 直接 顺序 加 入 模型 


代码 清单 4-11 





model 
# 加 入 卷 积 层 
model. 
# 加 入 池 化 层 


model 





model 
#dropout 
model. 








定义 model 后 即 可 直接 加 入 多 种 层 进 


# 加 入 全 链接 层 


.add (Dense (http://www.hzcourse.com/resource/read 


layers impor 


layers import 


快速 


比如 Theano 完 成 。Keras 的 使 用 者 较 多 


径 网 络 层 ，Keras 均 有 实现 





ct ct 


add (Dropout (0.25) ) 











搭建 代码 的 时 候 推荐 使 用 TFLearn， 其 可 以 帮助 我 们 快速 解决 内 部 需 有 


Dense, Dropout, Flatten 
Conv2D, MaxPooling2D 


基础 网 络 层 


from keras.models import Sequential 
= Sequential () 


add (Conv2D (http://www. hzcourse.com/resource/ read 


具体 见 代码 清单 4- 


10: 








. add (MaxPooling2D (http: //www.hzcourse.com/resource/ read 


而 无 须 


通过 数据 方式 进行 传递 ， 具 体 见 代码 清单 4-11: 


Book?path=/openresources/teach ebook/uncompressed/17708/0. 

















代码 清单 4-12 ”定义 优化 过 程 





from keras.optimizers import SGD 








#7E IER RIE 


行 操作 ， 同 样 其 需要 定义 训 | 经 


Book?pa 


sgd = SGD (lr=0.01, decay=le-6, momentum=0.9, nesterov=True) 


model. 
# 训 练 过 程 
model. 











compile (loss= 











# 评 估 训 练 效果 


score = model.evaluate(x test, y test, batch size=32) 





至 此 我 们 就 可 以 顺序 完整 地 搭建 整 


代码 清单 4-13 





fit(x train, y train, batch size=32, epochs=10) 





完整 代码 











Book?path=/openresources/teach ebook/uncompressed/17708/0. 














aid 


EBPS/Text/.. 


EBPS/Text/.. 





EBPS/Text 











th=/openresources/teach ebook/uncompressed/17708/0 


， 有 具体 见 代 码 清单 4-12 : 


"categorical crossentropy', optimizer=sgd) 





Ef aer 


-)) 


-)) 


下 面 利 用 TFLearn 完 成 手写 数字 的 识别 任务 ， 具 1 


行 了 极 大 的 简化 ， 不 需要 出 现 循环 过 


-)) 


见 代码 清单 4-9: 


十 程 。 而 且 TFLearn 之 中 自 带 一 些 常 用 的 数据 集 ， 


并 且 横 跨 了 多 个 机 器 学 习 框 架 ， 底 层 工 作 既 可 以 利用 TensorFlow 完 成 ， 也 可 以 交 由 其 他 机 器 学 习 库 ， 


个 神经 网 了 ， 与 TF Layers 一 样 ，Keras 可 以 大 大 减少 代码 量 ， 下 面 是 用 于 分 类 问题 的 一 个 小 的 完整 示例 ， 具 体 见 代码 清单 4-13 : 





import keras 
from keras. models import Sequential 
from keras.layers import Dense, Dropout, Flatten 


from keras.layers import Conv2D, MaxPooling2D 
from keras.optimizers import SGD 


+ 这 里 utilis 为 自己 定义 的 库 函 数 ， 用 于 载 入 数据 
import utils 
X, Y, testX, testY = utils.load_ data (one hot=True) 

























































































model = Sequential () 
# 定 义 神 经 网 络 过 程 
model .add(Conv2D(32, (3, 3), activation='relu', input shape=(100, 100, 3))) 
model.add(Conv2D(32, (3, 3), activation='relu')) 
model .add (MaxPooling2D (pool size=(2, 2))) 
model .add (Dropout (0.25) ) 
model.add(Conv2D(64, (3, 3), activation='relu')) 
model.add(Conv2D(64, (3, 3), activation='relu')) 
model .add (MaxPooling2D (pool size=(2, 2))) 
model .add (Dropout (0.25) ) 
# 展开 一 维 数组 用 于 全 链接 层 
model .add (Flatten () ) 
model.add(Dense (256, activation='relu')) 
model .add (Dropout (0.5)) 
model .add (Dense (10, activation='softmax") ) 
# 梯度 迭代 算法 
sgd = SGD (lr=0.01, decay=le-6, momentum=0.9, nesterov=True) 
He e TERORA AE Greeny optimizer=sgd) 
# 训练 过 程 
model.fit(x train, y train, batch size=32, epochs=10) 
# 效果 评估 





score = model.evaluate(x test, y test, batch size=32) 





可 以 看 到 ， 整 个 代码 量 与 TFLearn 的 代码 量 相近 ， 对 于 初学 者 或 者 想 快速 上 手 的 学 习 人 员 ， 推 荐 使 用 Keras。 


4.3 Tensorboard 与 问题 监控 


TensorBoard 的 作用 除 第 3 章 提 到 的 观察 所 描述 的 计算 图 之 外 ， 其 最 重要 的 作用 就 在 于 观察 训练 过 程 中 的 各 种 问题 并 进行 改善 ， 这 里 的 问题 包括 梯度 消失 、 过 拟 合 等 问题 ， 在 使 用 Slim 方 式 进行 卷 积 、 全 
链接 网 络 的 构建 之 后 ， 其 变量 的 默认 名 称 如 图 4-6 所 示 。 


_. gradients 
` gradients_7 


sigmoid: — 
as 
BiasAdd 


biases = : Coig 


; : gradients 
E “mgradients 1 
Weights GradientDe.. 
init 





im 
fal 
Pi 


图 4-6 Slim 默认 变量 名 


这 种 命名 方式 为 我 们 独立 观测 每 个 变量 名 提供 了 便利 ， 因 此 我 们 可 以 通过 如 下 方式 获取 所 有 的 可 训 | 练 参数 ， 具 体 见 代 码 清单 4-14: 


代码 清单 4-14 ”获取 参数 





4 
i 





w" in var.name] 
f "b" in var.name] 


var list 


W [var for var in tf.trainable variables () 
var list b 


[var for var in tf.trainable variables () 






































在 获取 所 有 的 可 训练 向 量 列表 之 后 ， 下 面 利用 定义 的 梯度 算法 来 计算 梯度 ， 具 体 见 代码 清单 4-15: 


代码 清单 4-15 “计算 梯度 


# 计 算 相关 的 梯度 
gradien t w = optimizer.compute gradients (loss, var list=var list w) 
gradien t b = optimizer.compute gradients (loss, var list=var list b) 
































返回 的 梯度 也 是 一 个 列表 ， 可 以 用 for 来 进行 循环 ， 其 是 列表 中 训练 参数 所 对 应 的 权 值 。 由 于 是 列表 ， 因 此 我 们 可 以 进行 各 种 列表 操作 ， 比 如 加 入 summa ry 操 作 ， 具 体 见 代码 清单 4-16: 
代码 清单 4-16 定义 summary 


# 将 梯度 内 容 加 入 summary 
for idx, itr g ine 









































numerate (gradient w): 
variable summaries (itr g[0], "layersd-w-grad"%idx) 
r idx, itr g in enumerate (gradient b): 
variable summaries (itr g[0], "layer%šd-b-graq" %idx) 
for idx, itr g in enumerate (var list w): 
variable summaries (itr g, "J rsd-w" idx) 
for idx, itr g in enumerate (var list b): 
table summaries (it Å" 6d-b"Sidx) 




















由 此 我 们 来 执行 训练 过 程 ， 并 进行 结果 输出 ， 如 图 4- 7 所 示 。 


step: ð train:6.333 test:0.333 
step: 30 train:@.333 test:0.333 
step: 68 train:0.333 test:0.333 
step: 98 train:0.333 test:0.333 
Step: 120 train:9.333 test:0.333 
Step: 150 train:0.333 test:0.333 
Step: 180 train:0.333 test:0.333 
step: 210 train:0.333 test:0.333 
step: train:8.333 test:0.333 
step: train:8.333 test:0.333 
step: train:0.333 test:0.333 
step: 330 train:0.333 test:9.333 
Step: 360 train:9.333 test:0.333 
Step: 398 train:8.333 test:0.333 
Step: 420 train:0.333 test:0.333 
step: 450 train:0.333 test:0.333 
step: 480 train:6.333 test:0.333 
Step: 516 train:0.333 test:0.333 
step: 540 train:0.333 test:8.333 
step: 570 train:0.333 test:0.333 


图 4-7 训练 过 程 输出 





由 图 4-7 可 以 看 到 ， 整 个 训练 过 程 之 中 训练 集 和 测试 集 精度 均 未 发 生变 化 ， 也 就 是 说 我 们 的 训练 过 程 产生 了 问题 ， 但 是 具体 原因 很 难 通过 简单 的 输出 来 判断 ， 因 此 这 里 需要 对 上 面 过 程 中 所 计算 的 梯度 参 
数 进行 可 视 化 之 后 再 进行 诊断 ， 可 视 化 如 图 4-8 所 示 。 


layerl-w/histogram A layerl-w-grad/histogram e 
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图 4-8 权 值 及 其 梯度 


由 图 4-8 可 以 看 到 ， 全 链接 网 络 对 于 前 几 层 的 网 络 而 言 ， 整 个 迭代 权 值 w 基 本 上 未 发 生变 化 ， 这 显然 是 由 于 梯度 产生 了 问题 所 导致 的 ， 接 下 来 再 观察 其 所 对 应 的 梯度 ， 可 以 看 到 ， 整 个 计算 的 梯度 基本 上 
都 分 布 于 0 附近 ， 这 时 计算 梯度 非常 小 ， 属 于 典型 的 梯度 消失 问题 。 因 此 我 们 可 以 利用 TensorBoard 来 诊断 训练 过 程 中 所 出 现 的 问题 。 


44 ”改善 深度 神经 网 络 


对 于 上 文中 所 出 现 的 梯度 消失 的 问题 ， 一 种 最 有 效 的 方式 就 是 进行 BATCHNORM (BN) 操作 ,具体 见 代码 清单 4-17: 


代码 清单 4-17 BATCHNORM 层 


net = tf.contrib.layers.batch norm (net) 





BATCHNORM 操 作 是 在 每 一 层 之 后 进行 的 ， 具 体 见 代码 清单 4-18: 
代码 清单 4-18 加 入 BN 层 


# 对 于 sigmoidq 激 活 函数 而 言 ， 效 果 可 能 并 不 理想 

net = slim.fully connected(x, 4, activation fn=tf.nn.sigmoid, 
scope='fulll', reuse=False) 
tf£.contrib.layers.batch_ norm (net) 
slim.fully connected(net, 8, activation fn=tf.nn.sigmoid, 
scope='full2', reuse=False) 
net = tf.contrib.layers.batch norm(net) 











net 
net 





£. 




















net = slim.fully connected (net, 8, activation fn=tf.nn.sigmoid, 
scope='full3', reuse=False) 
tf£.contrib.layers.batch norm (net) 
slim.fully connected(net, 4, activation fn=tf.nn.sigmoid, 
scope='full4', reuse=False) 
net = tf.contrib.layers.batch norm (net) 
y = slim.fully connected(net, 3, activation fn=tf.nn.sigmoid, 
E scope='full5', reuse=False) 

loss = tf.reduce mean (tf.square (y-label)) 


££. 















































net 
net 


£, 










































































对 于 简单 的 多 层 神 经 网 络 分 类 问题 而 言 ，BATCHNORM 操 作 处 于 每 一 层 全 链接 输出 之 后 。 下 面 再 来 通过 TensorBoard 观 察 梯度 的 变化 ， 如 图 4-9 所 示 。 
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图 4-9 梯度 问题 改善 


由 图 4-9 可 以 看 到 ， 权 值 在 初始 迭代 过 程 中 经 历 了 比较 剧烈 的 变化 ， 这 是 一 个 不 断 进行 调整 的 过 程 ， 但 是 仔细 观察 下 面 坐标 的 变化 情况 ， 就 可 以 发 现 其 学 围 变 大 了 ， 同 时 分 布 看 起 来 也 更 加 合理 了 ， 在 0 
附近 的 点 减少 了 。 也 就 是 说 训练 的 有 效 性 提高 了 ， 这 体现 为 训练 过 程 中 权 值 变化 比较 明显 。 最 后 来 看 下 图 4-10 所 示 的 改进 后 的 训练 输出 。 


step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 
step: 


4.5 性 能 优化 建议 





train:8.533 test:0.567 
train:@.711 test:8.733 
train:0.900 test:8.960 
train:8.911 test:0.933 
train:@.956 test:98.983 
train:8.989 test:8.967 
train:0.989 test:0.967 
train:8.989 test:0.967 
train:8.989 test:6.967 
train:8.989 test:8.967 
train:@.989 test:8.967 
train:8.989 test:0.967 
train:8.989 test:8.983 
train:1.000 test:8.983 
train:1.000 test:0.983 
train:1.9080 test:8.983 
train:1.800 test:6.983 
train:1.900 test:8.983 
train:1.000 test:0.983 
train:1.000 test:0.983 





对 于 神经 网 络 来 说 ， 由 于 现在 并 没有 一 个 非常 完备 的 理论 体系 ， 因 此 一 些 优化 和 训练 技巧 还 是 比较 重要 的 。 这 些 技巧 包括 一 些 训练 前 的 网 络 优化 技巧 以 及 训练 过 程 中 的 技巧 。 
首先 ， 训 练 前 的 优化 技巧 包括 : 网 络 结构 优化 、 初 始 值 的 选取 和 数据 预 处 理 等 。 
(1) 网 络 结构 优化 


网 络 结构 优化 方面 ， 选 择 ReLU 和 BATCHNORM 是 加 快 神经 网 络 训练 速度 十 分 有 效 的 方法 。 对 于 一 些 RNN， 由 于 时 间 步 很 长 ， 所 以 会 选择 tanh 防 止 过 度 增 长 问题 。 而 sigmoid 通 常 只 用 于 有 特定 目标 的 
输出 。 


卷 积 核心 的 选取 可 以 从 大 的 卷 积 核心 修改 为 多 个 小 的 卷 积 核心 ， 或 者 将 nxn 修 改 为 nx1+1xn， 这 样 可 以 减少 参数 的 数目 ， 同 时 不 同 的 输出 内 容 之 间 也 可 以 进行 concat， 用 于 识别 特征 ， 这 种 方式 通常 
比 单纯 地 增加 特征 数目 更 为 有 效 。 可 以 引入 跨 层 支 路 以 解决 梯度 问题 ，ResNet 采 用 的 就 是 这 种 思路 。 


(2) 初始 值 的 选取 


不 好 的 初始 值 对 于 训练 的 影响 非常 大 ， 甚 至 于 得 不 到 应 有 的 结果 ， 因 此 对 于 神经 网 络 ， 需 要 考虑 如 何 进 行 初始 化 。 这 里 所 说 的 有 效 的 初始 化 方法 包括 xavier 初 始 化 方法 和 He 初始 化 方法 ， 这 两 种 方法 都 
是 针对 权 值 矩阵 w 而 言 的 。 


(3) 数据 预 处 理 
数据 预 处 理 的 好 坏 将 会 直接 影响 神经 网 络 的 性 能 ,一 些 情况 下 借助 于 神经 网 络 自身 的 强大 表达 能 力 ， 数 据 预 处 理 相 比 于 传统 的 特征 工程 可 以 进行 简化 。 这 里 的 数据 预 处 理 包 括 去 均值 和 方差 均衡。 
训练 过 程 中 的 技巧 包括 : 优化 算法 的 选择 、 梯 度 步 长 选取 和 batchsize 选 择 等 。 

(1) 优化 算法 的 选择 


在 很 多 情况 下 ，adam 优 化 算法 都 认为 是 比较 优秀 的 ， 其 收敛 速度 也 较 快 ， 但 是 结果 可 能 不 如 其 他 算法 。 因 此 在 训练 过 程 中 可 以 使 用 adam 算 法 进行 实验 。 但 是 在 一 些小 的 训练 集 上 ，adam 和 梯度 下 降 
法 的 区 别 并 不 明显 。 


(2) 学 习 率 选择 
学 习 率 选择 可 以 从 大 的 步 长 开始 进行 迭代 ， 之 后 逐步 减少 学 习 率 。 对 于 已 经 训练 好 的 模型 ， 可 以 使 用 小 的 学 习 率 进行 学 习 ， 同 时 也 可 以 用 小 的 学 习 率 进行 预 热 。 
(3) batchsize 选 择 


对 于 batchsize 而 言 ， 并 没有 一 个 常规 的 大 小 可 以 根据 硬件 条 件 ， 如 内 存 、 显 存 容量 等 自主 进行 调整 。batchsize 的 影响 并 没有 想像 得 那么 大 ， 反 而 较 大 的 size 会 拖 慢 单 次 迭代 的 速度 ， 同 时 并 没有 带 来 效 
率 上 的 提升 。 


(4) model ensembles 
使 用 不 同 初始 值 同时 训练 多 个 模型 ， 预 测 过 程 中 将 多 个 模型 输出 结果 做 平均 ， 这 可 以 有 效 提升 结果 精度 。 
(5) dtopout 选 择 


dropout 可 以 从 0.5 附 近 进 行 调整 ， 调 整 步 长 为 0.05 左 右 ， 过 大 的 取 值 会 使 得 结果 不 收敛 。 


4.6 深度 神经 网 络 结构 


目前 ,一 些 神经 网 络 为 了 加 深层 数 或 者 改善 信息 丢失 问题 ， 在 网 络 结构 上 进行 了 优化 ， 这 里 介绍 几 种 有 效 的 深度 神经 网 络 结构 。 


4.6.1 Inception 结 构 


在 深度 神经 网 络 之 中 ，Inception 的 主要 目标 在 于 更 有 效 地 提取 特征 ， 减 少 参数 量 。Inception 网 络 结构 如 图 4-11 所 示 。 


1 x 1 卷 积 





图 4-11 Inception 网 络 结构 


随 着 深度 的 增加 ，CNN 所 带 有 的 特征 也 更 加 丰富 ， 因 此 特征 维度 会 变 得 很 大 ， 在 这 种 情况 下 ， 单 纯 地 增加 CNN 特 征 维度 会 带 来 训练 上 的 问题 ， 这 种 方式 不 适合 神经 网 络 在 深度 上 进行 扩展 ， 因 此 产生 了 
Inception 子 结构 。 这 种 子 结构 可 以 将 不 同 大 小 的 卷 积 核心 进行 组 合 ， 这 样 就 可 以 使 得 神经 网 络 的 训练 过 程 更 加 高 效 。 


46.2 ”ResNet 结 构 


Inception 解 决 了 特征 的 问题 ， 但 其 在 网 络 深度 上 的 进一步 扩展 ， 需 要 更 加 有 效 的 网 络 结构 ， 这 就 出 现 了 在 深度 神经 网 络 之 上 添加 支 路 的 过 程 ， 如 图 4-12 所 示 。 


由 图 4-12 可 以 看 出 ，ResNet 子 结构 中 添加 了 跨 层 支 路 ， 跨 层 支 路 的 加 入 使 得 深度 神经 网 络 更 加 接近 于 浅 层 神 经 网 络 ， 这 使 得 训练 更 加 有 效 解 决 了 训练 过 程 中 的 梯度 消失 问题 。 








Batch normalization 


4.6.3 ”Seq2Seq 结 构 


在 NLP 之 中 ， 比 如 翻译 ， 常 见 的 结构 就 是 seq2seq 结 构 ， 这 种 结构 通常 是 由 两 个 RNN 结 构 所 组 成 的 ， 如 图 4-13 所 示 。 
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图 4-13 ”Seq2seq 网 络 结构 


两 个 RNN 结 构 分 别称 为 Encoder 和 Decoder， 其 中 Encoder 用 于 处 理 输入 ，Decoder 用 于 处 理 输出 ， 二 者 之 间 的 桥梁 是 Encoder 最 终 所 产生 的 状态 向 量 ， 状 态 向 量 传 入 Decoder 中 作为 其 的 第 一 个 状 
态 ， 从 而 建立 起 两 个 网 络 之 间 的 联系 。 当 然 ，EncoderDecoder 结 构 并 不 仅 限于 RNN，CNN 同 样 也 可 以 完成 。 


4.6.4 Attention 


用 于 自然 语言 处 理 (NLP) 的 神经 网 络 通常 分 为 encoder 和 decoder， 它 们 通常 是 两 个 独立 的 RNN。 但 是 由 于 语言 长 度 的 不 确定 性 ， 我 们 有 时 需要 将 一 个 很 长 的 语句 通过 encoder 压 缩 成 一 个 固定 长 度 


的 向 量 ， 这 显然 是 不 符合 常理 的 。 因 此 Attention 应 运 而 生 。 其 使 得 encoder 每 一 步 的 输出 都 有 可 能 参与 decoder 的 输出 ， 如 图 4-14 所 示 。 
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(C) Attention 机制 


(A) LSTM 结构 
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图 4-14 Attention 机 制图 示 
这 种 机 制 使 得 NLP 任务 达到 了 一 个 真正 可 用 的 级 别 。TensorFlow 中 为 我 们 提供 了 Attention 函 数 ， 具 体 见 代 码 清单 4-19: 


代码 清单 4-19 Attention 函数 








tf.contrib.seq2seq.BahdanauAttention (...) 





AT 本章 小 结 


本 章 着 重 讲解 了 梯度 问题 ， 这 是 深度 神经 网 络 训练 的 第 一 步 。 之 后 的 学 习 涉 及 了 深度 神经 网 络 结构 ， 比 如 Inception 和 ResNet 等 ， 实 际 上 它们 也 是 为 了 解决 梯度 问题 而 存在 的 ， 在 神经 网 络 的 训练 过 程 
中 ， 粗 暴 地 增加 特征 数量 和 神经 网 络 层 数 在 理论 上 是 可 以 得 到 理想 的 结果 的 ， 但 是 由 于 神经 网 络 训练 的 问题 ， 一 方面 我 们 需要 减少 可 训练 参数 的 数量 ， 另 一 方面 又 需要 我 们 对 于 梯度 传播 方式 提出 改进 ， 这 
是 上 述 复杂 网 络 在 训练 上 的 意义 。 


第 ?5 章 ”语音 识别 器 


本 章 将 讲解 语音 识别 的 相关 内 容 。 在 语音 识别 任务 中 ， 由 于 语音 识别 过 程 并 不 是 很 强调 前 后 文 信息 ， 因 此 用 CNN、RNN 均 可 以 获得 比较 好 的 效果 。 本 章 在 用 CNN 进 行 语音 识别 的 过 程 中 ， 需 要 扩大 感 


受 野 ， 也 是 为 了 使 得 识别 过 程 可 以 处 理 更 多 前 后 文 信息 。 


直接 处 理 语音 信息 比较 复杂 ， 因 为 不 同 的 语音 采样 率 、 设 备 等 对 结果 均 会 产生 影响 ， 因 此 直接 对 原始 波形 进行 处 理 然后 输出 文本 这 个 过 程 将 是 比较 复杂 的 ， 因 此 为 了 简化 处 理 ， 通 常 需 要 对 于 原始 的 语 
音信 号 提取 MFCC， 这 是 语音 识别 的 第 一 步 ， 之 后 即 可 直接 输入 网 络 进行 输出 了 。 


5.1 任务 分 析 


随 着 智能 家 居 、 语 音 助 手 以 及 各 种 语音 输入 法 的 广泛 应 用 ， 语 音 识别 开始 逐渐 走 进 大 众 的 视野 。 作 为 人 机 交互 的 入 口 之 一 ,语音 识别 在 人 工 智能 领域 起 到 了 基础 性 的 作用 。 其 经 历 了 数 十 年 的 研究 历 
程 ， 尽 管 已 有 很 多 成 熟 的 产品 ， 但 是 在 实践 中 依然 存在 部 分 问题 。 而 深度 学 习 概念 的 提出 ， 使 得 语音 识别 研究 进入 了 一 个 新 的 阶段 ， 并 持续 地 吸引 着 相关 工作 人 员 投 入 精力 。 


语音 识别 早期 出 现在 20 世 纪 60 年 代 ， 当 时 苏联 就 有 研究 人 员 提出 了 动态 时 间 规整 以 及 动态 规划 算法 ， 它 们 有 效 地 解决 了 语音 模板 与 语音 实例 的 对 齐 问题 ， 这 对 于 语音 识别 技术 影响 深远 。 而 在 引入 隐 式 
马尔 科 夫 链 (HMM) 之 后 ， 原 本 的 固定 模板 匹配 的 方法 被 改进 为 概率 方法 。 随 着 隐 式 马尔 科 夫 链 (图 5-1) 理论 与 研究 的 逐步 深入 和 完善 ， 产 生 了 很 多 基于 该 理论 的 语音 识别 技术 ， 其 模型 到 现在 为 止 都 仍 
在 使 用 。20 世 纪 80 年 代 ， 由 于 反 向 传播 算法 的 提出 ， 神 经 网 络 方法 开始 应 用 于 语音 识别 研究 ， 而 且 其 与 HM M 方 法 的 混合 模型 也 获得 了 比较 好 的 结果 。 之 后 支持 向 量 机 (SVM) 、Boosting 等 方法 用 于 分 析 
训练 难度 较 小 的 模型 取代 了 简单 的 神经 网 络 ， 之 后 逐渐 被 高 斯 混合 模型 所 取代 。 在 21 世 纪 ， 深 度 神 经 网 络 的 发 展 ， 使 得 用 于 语音 识别 的 CNN、RNN 也 得 以 友 展 。 以 前 受 限 于 理论 方法 与 硬件 的 限制 ， 多 层 
神经 网 络 难以 训练 ， 在 一 些 优化 模型 提出 之 后 ， 语 音 识别 方法 得 到 了 一 个 长 足 的 进步 。 
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A5-1 隐 式 马尔 科 夫 链 图 示 (三 种 天 气 转移 概率 ) 


由 图 5-1 可 知 ， 在 这 个 马尔 科 夫 模型 中 ， 存 在 三 个 状态 ，Sunny、Rainy、Cloudy， 同 时 图 中 所 标示 的 是 各 个 状态 间 的 转移 概率 。 而 这 三 种 天 气 状态 直接 观测 是 观测 不 到 的 ， 相 应 地 ， 我 们 可 以 通过 其 他 方 


式 来 推断 这 些 状态 ， 这 是 HMM 需 要 解决 的 问题 之 一 。 


举 个 例子 ， 茶 人 会 根据 天 气 情况 进行 相应 的 活动 : 去 商场 购物 、 去 公园 散步 或 者 是 回 家 收拾 房间 。 若 已 经 知道 这 个 人 这 几 天 做 了 什么 ， 则 可 以 通过 她 的 行为 猜测 这 几 天 对 应 的 天 气 最 有 可 能 是 什么 样子 
的 。 以 上 就 是 一 个 简单 的 HMM， 天 气 状 况 属于 状态 序列 ， 而 这 个 人 的 行为 则 属于 观测 序列 。 天 气 状 况 的 转换 是 一 个 马尔 科 夫 序列 ， 而 根据 天 气 的 不 同 ， 存 在 相对 应 的 概率 产生 不 同 的 行为 。 


目前 语音 识别 技术 已 经 发 展 成 熟 ， 但 是 系统 性 能 和 人 类 相 比 还 有 较 大 的 差距 。 主 要 原因 是 语言 在 波形 上 表现 出 了 比较 大 的 区 别 ， 这 种 区 别 是 由 不 同 个 体 、 周 围 环境 、 方 言 、 情 感 、 停 顿 、 信 噪 比 、 采 集 


设备 等 多 方面 因素 所 导致 的 。 因 此 这 种 差异 性 导致 了 语音 数据 表达 的 即使 是 同一 段 内 容 ， 但 是 具体 到 波形 上 仍然 会 有 很 大 的 差距 。 人 脑 通过 学 习 过 程 可 以 从 数据 中 提取 关键 信息 ， 这 种 能 力 可 以 使 得 人 可 以 
抛 开 一 些 噪声 的 影响 而 专注 于 内 容 。 波 形 复杂 性 使 得 一 些 简单 的 分 类 算法 无 法 得 到 有 效 的 结果 。 一 些 研究 借助 于 深度 神经 网 络 与 隐 式 马尔 科 夫 链 的 混合 模型 ， 在 大 量词 汇 的 系统 中 取得 了 巨大 的 成 功 ， 使 得 
深度 神经 网 络 在 语音 识别 中 表现 出 了 强大 的 性 能 。 国 外 IBM、Google 等 公司 以 及 国内 的 科大 讯 《、 中 科 院 自动 化 所 等 对 深度 神经 网 络 进行 语音 识别 均 投入 了 大 量 资源 进行 研究 ， 并 取得 了 很 大 成 功 。 图 5-2 
展示 了 用 于 语音 识别 的 ResNet 子 层 。 
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图 5-2 ”用 于 语音 识别 的 ResNet 子 层 


语音 识别 是 人 机 交互 的 基础 性 功能 ， 是 推动 人 工 智能 发 展 的 支柱 。 但 是 由 于 传统 机 器 学 习 方法 的 表达 能 力 较 弱 ， 因 此 在 面 对 海量 数据 的 时 候 其 建 模 能 力 不 强 。 相 比 于 高 斯 混合 模型 (GMM) 方法 ， 深 
度 神 经 网 络 方法 中 含有 海量 的 可 训练 参数 ， 在 这 个 基础 上 进行 数据 建 模 可 以 有 效 地 提取 特征 ， 深 度 神经 网 络 是 基于 特征 进行 提取 的 ， 因 此 其 对 于 噪声 的 忍耐 度 更 强 ， 可 以 有 效 地 抵抗 噪声 的 干扰 。 由 于 理论 
与 计算 能 力 的 不 足 ， 神 经 网 络 方法 在 发 展 上 曾 遭 遇 瓶 颈 期 ， 随 着 理论 的 完善 与 GPU 多 架构 计算 的 引入 ， 神 经 网 络 模型 训练 的 速度 得 到 了 大 大 提高 ， 同 时 一 些 深度 神经 网 络 模型 的 提出 ， 比 如 ResNet (如 图 5- 
2) ， 使 得 对 于 语音 特征 的 提取 变 得 更 加 完整 。 


5.2 ”数据 与 特征 分 析 


5.2.1 “语音 数据 库 
目前 来 说 语音 数据 库 可 分 为 两 种 ， 一 种 是 拼音 文字 ， 一 种 是 像 汉 语 一 样 的 表意 文字 。 两 种 数据 中 ， 汉 语 数 据 属 于 相对 难以 处 理 的 数据 ， 因 为 需要 学 习 的 类 更 多 ， 而 且 缺 少 规 律 ， 这 使 得 汉语 需要 分 析 前 
后 文 信息 以 确定 相应 的 同音 字 。 而 拼音 文字 相对 来 说 则 可 以 通过 “音素 ”来 进行 单词 组 合 ， 同 时 还 可 以 利用 字母 级 的 标签 进行 语音 识别 任务 ， 而 这 种 数据 集 相 对 来 说 比较 容易 获取 。 


关于 这 方面 的 数据 库 ， 比 较 有 名 的 是 TIMIT 数 据 库 ， 其 全 称 是 The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus， 是 由 德州 仪器 、 麻 省 理工 学 院 和 斯 坦 福 研究 院 合作 构建 的 声学 - 音 
素 连续 语音 语料库 。TIMIT 数 据 集 语音 采样 频率 为 16kHz， 包 含 6300 个 句子 。 由 来 自 美 国 八 个 主要 方言 地 区 的 630 个 人 每 人 说 出 给 定 的 十 个 句子 ， 所 有 的 句子 都 在 音素 (phone) 级 别 上 进行 了 手动 分 割 |、 
标记 。 语 句 中 70% 为 男性 ， 说 话 者 大 多 数 是 成 年 白人 。TIMIT 所 记录 的 录音 中 包含 了 61 个 音素 ， 具 体 见 表 5-1。 


利用 表 5-1 所 示 的 这 些 音素 可 以 组 成 单词 。 


表 5-1 所 示 的 数据 是 基于 拼音 文字 而 言 的 ， 而 在 汉语 的 处 理 过 程 中 ， 由 于 同音 字 较 多 ， 因 此 在 处 理 过 程 中 还 需要 处 理 前 后 文 信息 。 
通话 。 采 样 率 为 16kHz， 数 据 为 16bits， 这 些 录 音 根据 其 文本 内 容 分 成 了 四 个 
用 来 做 训练 ，D 包 含 了 10 个 人 的 2496 句 发 音 。 


的 语音 库 ， 发 音 为 普 
三 组 包含 了 30 个 人 的 10893 句 友 音 ， 


部 分 ，A (句子 的 ID 是 1~ 250) 
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5.2 ”数据 与 特征 分 析 
5.2.1 ”语音 数据 库 
目前 来 说 语音 数据 库 可 分 为 两 种 ， 一 种 是 拼音 文字 ， 一 种 是 像 汉 语 一 样 的 表意 文字 。 两 种 数据 中 ， 
后 文 信息 以 确定 相应 的 同音 字 。 而 拼音 文字 相对 来 说 则 可 以 通过 “音素 ”来 进行 单词 组 合 ， 


关于 这 方面 的 数据 库 ， 比 较 有 名 的 是 TIMIT 数 据 库 ， 其 全 称 是 The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus， 是 由 德州 仪器 
续 语 音 语料库 。TIMIT 数 据 集 语音 采样 频率 为 16kHz， 包 含 6300 个 句子 。 由 来 自 美国 八 个 主要 方言 地 区 的 630 个 人 每 人 说 出 给 定 的 十 个 句子 ， 所 有 的 句子 都 在 音素 (phone) 级 别 上 进行 了 手动 分 嘎 
数 是 成 年 白人 。TIMIT 所 记录 的 录音 中 包含 了 61 


标记 。 语 句 中 70% 为 男性 ,说话 者 大 多 


利用 表 5-1 所 示 的 这 些 音素 可 以 组 成 单词 。 


表 5-1 所 示 的 数据 是 基于 拼音 文字 而 言 的 ， 而 在 汉语 的 处 理 过 程 中 ， 由 于 同音 字 较 多 ， 因 此 在 处 理 过 程 中 还 需要 处 理 前 后 文 信息 。 
, B (句子 的 ID 是 251~ 500) , 


的 语音 库 ， 发 音 为 普通 话 。 采 样 率 为 16kHz， 数 据 为 16bits， 
三 组 包含 了 30 个 人 的 10893 句 上 友 音 ， 


这 些 


录音 根据 其 文本 内 容 分 成 了 四 个 


用 来 做 训练 ，D 包 含 了 10 个 人 的 2496 句 发 音 。 
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汉语 数据 属于 相对 难以 处 理 的 数据 ， 因 为 需要 学 习 的 类 更 多 ， 而 且 缺 少 规律 ， 这 使 
同时 还 可 以 利用 字母 级 的 标签 进行 语音 识别 任务 ， 而 这 种 数据 集 相 对 来 说 比较 容易 获取 。 


这 方面 的 数据 库 有 清 


C (501~ 750) 


. RB LS ena 


C (501 ~ 750) 


Example 
button 
Washington 
lay 
ray 


way 


yacht 


hay 

ahead 
bottle 

b closure 
d closure 
g closure 
p closure 
t closure 

k closure 
glotal stop 
pause 
epenthetic silence 


begin/end marker 


, D (751~1000) 。 


这 方面 的 数据 库 有 清华 大 学 的 THCHS30 数 据 库 ， 其 中 有 包含 30 个 小 时 
，B (句子 的 ID 是 251~ 500) , 


ABC 


导 汉语 需要 分 析 前 


作 构 建 的 声学 - 音 


小 


华 大 学 的 THCHS30 数 据 库 ， 其 中 有 包含 30 个 小 时 
, D (751~ 1000) 。 
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5.2.2 “语音 数据 特征 


音 数 据 的 采样 率 在 16kHz 左 右 ， 也 就 是 说 一 秒 钟 会 记录 1.6 万 个 数据 点 ， 这 对 于 直接 处 理 语 音 数据 而 言 是 不 利 的 。 因 此 对 于 语音 数据 处 理 来 说， 第 一 步 就 是 进行 数据 特征 的 提取 ， 以 压缩 数据 处 理 量 。 
换 句 话说 就 是 将 音频 信号 中 具有 辨识 性 的 特征 提取 出 来 ， 而 将 噪声 诸如 背景 噪声 、 人 为 个 性 特征 等 因素 加 以 排除 。MFCC (Mel Frequency Cepstral Coeffients， 梅 尔 频率 倒 谱系 数 ) 就 是 在 语音 识别 中 广 
泛 应 用 的 固定 特征 。 其 是 在 1980 年 由 Davis 和 Mermelstein 提 出 的 ， 从 那 时 起 ， 作 为 一 种 简单 可 用 并 且 切 合 人 主观 感受 的 音频 特征 ，MFCC 一 直 广 泛 地 应 用 于 语音 识别 领域 。 下 面 就 对 MFCC 简 要 的 计算 过 程 
加 以 描述 。 


首先 ， 将 原始 的 语音 信号 作为 实例 ， 如 图 5-3 所 示 。 
SampleRate:16000 


Lenth:229200 
Times:14,3250s 
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图 5-3 ”原始 波形 数据 


图 5-3 是 典型 的 波形 数据 ， 其 采样 率 为 16bkHz， 整 个 数据 长 度 为 14.32s， 包 含 采样 点 22920 个 ， 一 些 研究 表明 ， 人 在 发 声 过 程 中 发 声 器 官 会 对 频谱 造成 影响 ， 使 得 信号 高 频 部 分 受到 压制 ， 因 此 为 了 减少 
这 种 高 频 压 制 ， 保 证 频谱 的 平滑 性 ， 需 要 对 频谱 进行 预 加 重 操作 ， 这 种 操作 在 形式 上 表现 为 对 时 域 信号 进行 差分 


Xn = Sn 991 一 1 ( 5.1 ) 


其 中 Sn 为 原始 信号 的 第 n 个 采样 点 ， 采 用 这 种 方式 可 以 对 于 高 频 信号 进行 增强 ， 其 中 Q 表 示 预 加 重 系数 ， 其 取 值 范围 一 般 为 0.94 ~ 0.97 之 间 。 这 种 形式 在 数学 上 可 以 近似 表示 为 : 


i j 
xxa:s+p:-s (5.2) 
根据 传 里 叶 变换 性 质 ，s 代表 信和 号 的 时 间 域 导数 ，Q、 有 为 常量 : 


F(x) = F(a: s+B°s’) 
=a: F(s)+ p iœ: F(s) 


= (æ + iwf) F (s) = (a + iof) F (a) (5.3 ) 
F (x) =F (w) 为 傅 里 叶 变 换 ， 其 将 信号 变换 为 频率 域 ， 由 此 可 以 看 到 ， 通 过 加 权 的 相 减 可 以 有 效 地 增强 高 频 信号 ， 同 时 这 种 计算 方式 有 着 较 高 的 效率 ， 如 图 5-4 所 示 。 
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el 
图 5-4 ”增强 信号 和 短 时 信号 
语音 信号 是 非 平稳 的 ， 由 图 5-4 可 以 看 到 ， 在 不 同 的 时 间 点 由 于 说 话 内 容 变换 产生 了 不 同 的 波形 ， 但 是 语音 产生 所 对 应 的 声带 变化 是 相对 缓慢 的 。 因 此 可 以 认为 在 一 个 很 短 的 时 间 内 语音 信号 基本 上 是 保 


持 不 变 的 ， 即 准 稳 态 过 程 。 显 而 易 见 ， 处 理 相 对 平稳 的 信号 比 随时 突变 的 信号 要 容易 得 多 。 所 以 语音 信和 号 特征 的 提取 过 程 都 会 采用 短 时 分 析 技术 ， 即 分 帧 。 对 信号 以 固定 长 度 (10ms 到 30ms) 为 标准 进行 
分 割 ， 将 一 段 完 整 的 语音 信号 分 成 者 干 个 小 段 ， 每 一 小 段 都 认为 是 平稳 信号 。 分 帧 过 程 通常 靠 加 窗 方 法 来 实现 ， 同 时 为 了 保证 帧 与 帧 之 间 的 平滑 ， 前 后 两 帧 之 间 都 有 一 定 程度 的 重 十 ， 重 蔷 区 域 称 为 帧 移 ， 











其 长 度 通 常 是 帧 长 度 的 1/2。 加 窗 疯 数 一 般 为 汉 明 窗 。 之 后 对 于 每 一 幢 进 行 FFT ( 传 里 叶 变换 ) ， 整 个 过 程 称 为 STFT ( 短 时 侍 里 叶 变 换 ) 。 这 样 做 既 可 以 保持 频率 信息 又 可 以 带 有 时 间 标 签 信息 ， 如 图 5-5 所 
不 
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A5-5 短 时 倩 里 叶 变 换 图 形 


由 图 5-5 可 以 看 到 ， 对 高 频 增强 后 的 信号 进行 短 时 传 里 叶 变换 (STFT) 可 以 得 到 时 域 频 域 兼 顾 的 信息 ， 以 便于 之 后 进行 信息 的 提取 ， 计 算 短 时 傅 里 叶 信息 的 过 程 中 时 序 信息 变 为 了 帧 信号 。 由 于 人 耳 对 
于 频率 的 感受 在 不 同 频率 上 并 不 相同 ， 最 直观 的 是 在 感受 上 感觉 频率 增 大 了 一 倍 ， 而 实际 上 频率 却 增 大 了 很 多 ， 因 此 需要 将 传 里 叶 谱 变换 到 梅 尔 频率 ， 在 这 个 频率 之 上 ， 频 率 的 变化 比较 符合 人 的 直观 感 
受 ， 因 此 可 以 在 这 个 频率 上 进行 等 间距 取样 ， 然 后 再 变换 回 原始 频率 空间 中 ， 二 者 之 间 的 关系 可 以 写 为 : 


Fe) =1120-In H (5.4) 


将 二 者 的 关系 绘制 成 图 ， 并 绘制 映射 过 程 可 得 到 图 5-6。 
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傅 里 叶 频率 
图 5-6 ”滤波 器 设计 


将 梅 尔 频率 上 等 间隔 采样 的 点 映射 回 频率 域 后 可 获得 多 个 梅 尔 滤波 器 ， 由 上 文 所 述 可 知 ， 这 种 方式 可 以 尽 可 能 地 还 原 语音 在 人 耳 中 实际 感知 的 情况 。 梅 尔 滤波 器 在 MFCC 特 征 参 数 的 提取 过 程 中 有 着 重 
要 的 作用 。 一 般 情况 下 MFCC 参 数 的 提取 需要 若干 个 融通 滤波 器 Hi (k) ， 如 图 5-6 所 示 ， 滤 波 器 在 梅 尔 频率 内 是 等 宽 的 ， 但 是 在 频率 域 上 则 表现 为 随 着 频率 增 大 而 逐渐 变 宽 的 三 角形 。 


那么 ，MFCC 的 计算 过 程 可 简要 描述 如 下 。 
1) 首先 对 于 信号 进行 STFT， 得 到 每 一 帧 的 记录 为 频率 特征 。 


2) 对 于 得 到 的 每 一 帧 频谱 计算 能 量 谱 : 


E(k) = Il (5.5) 
l . 
3) 将 能 量 谱 与 梅 尔 滤波 器 相 乘 后 进行 数值 积分 : 
S=} E(k) H; (k), 其 中 1 三 i 二 MM, 为 梅 尔 滤波 器 的 个 数 ( 5.6) 
4) 将 第 3) 步 计算 所 得 的 能 量 取 对 数 ， 然 后 计算 其 DCT (离散 余弦 变换 ) ， 这 样 就 得 到 了 M FCC 特 征 : 
MFCC = DC7(log(S;)) (5.7) 
经 过 上 述 几 个 步骤 的 处 理 之 后 ， 就 可 以 得 到 标准 的 MFCC 特 征 (图 5-7) 参数 了 。 一 般 情 况 下 ， 标 准 的 MFCC 特 征 参 数 就 已 经 反映 了 语音 参数 的 静态 特性 ， 可 以 满足 计算 的 需求 。 
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图 5-7 MFCC 特 征 


通常 来 说 ， 特 征 个 数 选 择 为 13 个 ， 更 多 的 参数 在 实验 上 对 于 结果 的 影响 不 大 。 但 由 于 人 和 耳 对 动态 的 特征 更 加 敏感 ， 因 此 也 可 再 对 MFCC 参 数 进 行 一 阶 差 分 ， 一 阶 差 分 可 以 表现 出 两 个 相 邻 的 帧 之 间 的 特 
征 。 在 语音 识别 过 程 中 ， 可 以 对 MFCC 进 行 一 阶 、 二 阶 差 分 计算 ， 从 而 获得 动态 特征 ， 此 时 的 特征 数 为 13x3=39 个 。 


5.3 ”主流 语音 识别 网 络 结构 


目前 而 言 ， 用 于 语音 识别 的 神经 网 络 结构 包括 CNN、RNN 结 构 ， 还 有 一 些 语音 识别 网 络 结合 了 CNN 与 RNN 两 种 形式 ， 用 CNN 进 行 特征 识别 ，RNN 进 行文 字 识 别 。 借 助 于 深度 神经 网 络 强大 的 表达 能 
力 ， 可 以 完成 端 到 端的 输入 输出 ， 从 而 简化 数据 预 处 理 与 特征 提取 过 程 。 为 了 处 理 海量 的 文本 特征 以 及 前 后 文 信息 ， 语 音 识别 网 络 相 比 于 传统 的 神经 网 络 在 深度 上 更 深 ， 所 用 的 自由 参数 数量 也 更 多 。 


5.3.1 用 于 语音 识别 上 99CNN 


用 于 语音 识别 的 CNN 其 结构 选择 深度 残 差 网 络 ， 这 种 网 络 结构 包含 了 更 多 的 可 训练 参数 ， 由 于 语音 任务 的 复杂 性 ， 这 种 程度 的 参数 数量 是 有 益 的 。 深 度 残 差 网 络 结构 如 图 5-8 所 示 。 
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图 5-8 ”用 于 语音 识别 的 CNN 结 构 


由 图 5-8 可 知 ， 用 于 语音 识别 的 CNN 神 经 网 络 结构 为 传统 的 前 馈 神经 网 络 ， 但 是 其 在 子 结构 上 借鉴 了 残 差 网 络 结构 。 这 种 结构 可 以 加 快 神经 网 络 的 训练 过 程 ， 减 少 梯度 问题 。 处 理 数据 为 一 维 MFCC 特 


征 ， 特 征 数量 选择 为 13 个 ， 由 于 CNN 结 构 本 身 可 以 比 对 前 后 时 间 节 点 MFCC 特 征 ， 因 此 未 加 入 一 阶 、 二 阶 差分 信号 。 输 入 的 MFCC 时 序 特 征 通过 传统 的 卷 积 神经 网 络 结构 使 得 其 并 不 会 违反 语音 识别 中 的 概 


(5.8) 


xT， 但 是 在 语音 识别 任务 其 中 是 可 以 利用 前 后 文 信息 的 ， 因 此 并 不 需要 对 后 续 时 间 步 做 任何 限制 。 传 统 的 图 像 处 理 


率 预 测 模型 


Pp (Yi) = P| Xi-m, ***, Xt+m) 


在 语音 生成 任务 中 ， 预 测 信息 不 能 依赖 于 其 后 时 间 步 所 出 现 的 信息 ， 比 如 xt+1，…, 


卷 积 操作 中 ， 需 要 加 入 池 化 层 以 扩大 感受 野 ， 但 是 池 化 层 的 引入 会 引起 信息 丢失 的 问题 ， 因 此 在 语音 识别 的 网 络 中 对 其 进行 了 改进 ， 使 用 了 空洞 卷 积 操作 方式 ， 这 种 方式 可 以 有 效 地 增加 感受 野 ， 而 避免 池 


化 层 信息 缺失 的 问题 ， 如 图 5-9 所 示 。 
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图 5-9 ”感受 野 的 改善 
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这 种 方式 的 计算 ， 由 于 计算 本 身 只 有 卷 积 神经 网 络 ， 因 此 模型 在 训练 的 过 程 中 会 比 RNN 更 加 简洁 ， 训 练 过 程 更 加 简单 ， 不 会 出 现时 间 步 过 长 等 问题 。 


5.3.2 ”用 于 语音 识别 的 RNN 


在 用 于 语音 识别 的 网 络 之 中 ， 另 一 个 比较 常用 的 网 络 是 RNN ， 从 原理 上 讲 ，RNN 可 以 处 理 时 间 依 赖 ， 是 更 适合 于 语音 等 时 序 波形 处 理 的 网 络 ， 但 是 在 应 用 过 程 中 会 遇 到 一 些 问题 ， 比 如 难以 训练 、 模 型 
难以 调 优等 问题 。 因 此 从 网 络 结构 上 来 看 ，RNN 是 比较 合适 的 ， 但 是 在 实际 工作 中 ，RNN 的 效果 并 不 会 比 CNN 好 。 


在 对 语音 数据 进行 处 理 的 过 程 中 ， 这 里 所 选择 的 网 络 结构 为 多 层 LSTM、GRU 网 络 ， 如 图 ?5-10 所 示 。 


Sentence Label ( character level ) 


CTC LOSS 


LSTM layer2 


LSTM layerl 


MFCC 


Speech wave 





图 5-10 ”用 于 语音 识别 的 RNN 结 构 
由 图 5-10 可 知 ，RNN 结 构 在 整体 结构 上 与 CNN 结 构 类 似 ， 但 是 其 层 数 更 少 ， 同 样 的 ， 可 训练 参数 也 更 少 ， 但 是 其 网 络 结构 相 比 于 前 馈 神 经 网 络 来 说 更 加 难以 训练 。 


由 图 5-10 可 以 看 到 ， 对 于 两 种 神经 网 络 而 言 ， 其 所 用 的 标签 均 为 字母 级 别 的， 这 种 级 别 的 编码 使 得 字符 编码 的 特征 数量 更 少 ， 而 将 字母 组 合成 单词 的 过 程 则 人 交 由 神经 网 络 自行 学 习 。 这 种 方式 的 训练 使 
得 神经 网 络 对 于 数据 量 的 依赖 比较 大 ， 我 们 需要 更 大 的 数据 量 来 提供 给 神经 网 络 ， 使 其 在 学 习 过 程 中 ， 结 合 前 后 文 将 字母 组 合成 单词 并 进行 输出 。 


对 于 汉语 来 说 ， 常 用 汉字 有 3000 多 个 ， 因 此 其 所 对 应 的 分 类 问题 类 别 数 会 达到 3000 多 。 这 就 需要 在 原 有 的 特征 向 量 之 上 加 入 一 个 全 链接 层 连接 特征 ， 这 个 过 程 称 为 embedding。 通 常 而 
言 ，embedding 是 一 种 用 于 文本 向 量化 的 方式 ， 现 在 成 就 的 文本 向 量化 有 word2vect， 这 种 向 量化 在 词 的 级 别 ， 所 以 需要 海量 数据 进行 预 处 理 ， 使 得 相近 的 词 向 量 相近 。 


5.4 CTC Loss 


在 前 文 所 述 的 两 种 语音 识别 网 络 中 ， 都 用 到 了 同一 种 损失 函数 ， 那 就 是 CTC Loss。 在 给 定 的 文本 标签 和 神经 网 络 的 输出 之 间 通 常 不 是 一 一 对 应 的 关系 ,一般 来 说 ， 神 经 网 络 所 输出 的 时 间 步 会 比 文本 标 
签 更 多 。 若 在 这 种 情况 下 再 进行 损失 函数 的 计算 则 首先 需要 对 两 种 向 量 进行 对 齐 。 为 解决 上 述 问题 ，Connectionist temporal classification (CTC) 应 运 而 生 了 ， 其 思想 源 自 于 动态 规划 。 由 于 进行 文本 相 
似 度 的 比较 时 ， 采 用 传统 的 向 量 相似 度 标准 并 不 合适 ， 因 此 在 此 引入 了 LER (label error rate) 作为 衡量 预测 与 标签 之 间 的 相似 度 ， 其 比较 方式 为 : 


l ED(h(x 
LER(A, S” ) — Zie z) € 


s' z 


(5.9 ) 





其 中 D0; ) 代 表 编 辑 距离 ， 即 从 一 个 序列 变 为 另 一 个 序列 所 需要 的 最 少 编辑 次 数 。S' 代 表 训 练 集 的 数据 与 标签 。h 代 表 经 过 神经 网 络 之 后 的 预测 输出 。 


将 深度 神经 网 络 的 输入 与 输出 写成 函数 的 形式 : 


y= N(x) (5.10) 


其 中 ，x 代 表 样 本 的 输入 ， 在 语音 识别 系统 中 代表 MFCC 或 原始 数据 ， 而 y 则 代表 预测 标签 。 二 者 的 维度 并 不 相同 ， 由 于 在 语音 识别 系统 中 ， 序 列 比 对 并 不 是 一 一 对 应 的 关系 ， 而 预测 时 间 步 通常 要 大 于 
标签 时 间 步 ， 这 就 要 求 在 比 对 的 过 程 中 融入 空白 (blank) ， 用 于 填充 预测 序列 。 那 么 对 于 预测 序列 而 言 ， 其 产生 某 一 输出 序列 的 概率 如 下 : 


P\ MX) = | A (5.11 ) 


其 中 ， 其 代表 第 k 个 神经 元 在 第 t 个 时 间 步 的 输出 。 之 后 需要 定义 映射 将 blank 与 重复 部 分 去 掉 : 
B(-XX-YY--) = B(--XY-—) = XY (5.12 ) 
其 中 ，“-” 代 表 blank， 其 存在 的 目的 在 于 其 可 使 得 序列 对 齐 。 通 过 上 面 的 方式 计算 可 得 最 终 序 列 的 概率 为 : 
I|x) = a (alx) (5.13) 
PIX) = Dy sew P 5.13 


对 带 有 blank 的 序列 去 重 ， 然 后 对 得 到 的 所 有 符合 “|” 的 序列 进行 求 和 可 以 计算 最 终 形成 序列 “|” 的 概率 ， 如 图 5-11 所 示 。 








1.0 





图 5-11 概率 序列 的 形成 


图 5-11 中 ，e 代 表 序 列 结束 ， 最 终 计 算 的 序列 为 |=XYe， 形 成 此 序列 的 概率 为 0.3。 由 图 5-11 可 以 看 到 这 个 概率 是 随 着 时 间 步 的 增多 而 逐渐 减少 的 ， 但 是 优化 的 目标 在 于 使 得 最 终 形成 的 序列 概率 尽 可 能 
地 大 。 正 如 前 文 所 述 ， 这 个 过 程 是 一 个 类 计算 编辑 距离 的 过 程 ， 由 于 神经 网 络 输出 中 包含 了 大 量 的 blank， 因 此 需要 对 label 进 行 处 理 ， 在 每 个 标签 之 间 填 入 blank 以 对 神经 网 络 输出 N (x) 进行 对 齐 ， 参 考 
编辑 距离 的 计算 ，CTC 算 法 的 计算 过 程 如 图 5-12 所 示 。 


图 5-12 ”标签 CAT 向 前 向 后 算 





如 图 5-12 所 示 ， 自 点 代表 blank， 黑 点 代表 字符 ， 神 经 网 络 输出 为 1-T 时 间 序 列 ， 而 对 应 的 标签 需要 插入 blank 记 为 |， 如 图 5-12 所 示 的 实例 为 CAT->-C-A-T-， 两 个 序列 的 相似 度 计算 过 程 则 需要 形成 
如 图 5-12 所 示 的 和 矩阵 ， 这 是 一 个 动态 规划 的 过 程 。 向 前 传播 的 过 程 为 沿 着 黑色 箭头 进行 ， 而 反 向 计算 梯度 的 过 程 则 逆向 箭头 进行 。 这 种 方式 借鉴 了 编辑 距离 的 动态 规划 计算 过 程 ， 为 了 模拟 计算 过 程 中 含有 


大 量 的 重复 以 及 blank 的 场景 ， 需 要 对 标签 进行 处 理 。 上 述 和 矩阵 用 公式 描述 如 下 : 


i= 
a (s oar, 1 [i= Vie 
B(x )}=l:s 
def 
C, = 2% (s) 


其 中 ， 运 算 符 为 对 于 和 矩阵 的 分 块 运算 。 为 了 计算 相似 性 误差 ， 最 终 的 公式 形式 比较 简单 : 


In( p(/|x))=>°7,n(C) 


ARRERA TRAR : 


O(S, N)=—Z0 es In(p (z|x)) 





(5.14) 


(5.15) 


(5.16) 


(5.17) 


整个 CTC Loss 的 推导 与 计算 过 程 都 是 比较 复杂 的 ， 这 里 不 对 反 向 求 导 过 程 进行 阐释 。 而 TensorFlow 为 我 们 提供 了 简便 可 用 的 CTC Loss 函 数 ， 具 体 请 见 代 码 清单 5-1: 


代码 清单 5-1 ctdloss 





# CTC Loss 
ctc = tf£.nn.ctc loss (..) 














将 复杂 的 计算 过 程 进行 封装 ， 这 也 是 TensorFlow 等 高 层次 机 器 学 习 库 的 优势 所 在 。 浮 数 在 使 用 过 程 中 应 该 注意 的 问题 是 


们 输入 的 和 矩 阵 为 密集 矩阵 ， 则 需要 对 和 矩 阵 进行 稀 玖 和 矩阵 的 转换 : 
代码 清单 5-2 稀 踊 答 阵 转换 


EF aE SB input se RATA AE NE 


















































label = tf.SparseTensor ( 
indices=tf.where ( 
tf.not equal ( 
tf.cast (inputs, tf.float32), -1.)), 
values=tf.gather nd(inputs, indices), 
dense shape=tf.cast(tf.shape (inputs), tf.int64) ) 




















, FATA Mlabel RSS, Mere, GSKA, WERE 


CIA (CASS 22 SBM in putsheiRAriialslabel, SAME MITRAL EMMANTEPA 1ASARBD, RELA. AIRE MRR REREN Pei, rb 


和 矩阵 。 


5.5 “文本 加 量化 


前 文 提 到 过 有 一 个 比较 重要 的 步骤 那 就 是 字符 向 量化 。 文 本 标签 的 向 量化 对 于 语音 识别 来 说 是 一 个 关键 过 程 。 在 传统 的 机 器 学 习 算 法 中 文本 向 量化 的 方式 是 建立 一 个 关于 字 、 词 的 统计 ， 如 表 5-2 所 示 。 


表 5-2 ”传统 文本 向 量化 表格 


riye Er 
M BE 


传统 的 文本 向 量化 方式 均 为 词 级 别 的 ， 方 法 就 是 统计 不 同 的 词 在 文章 中 出 现 的 概率 、 频 率 、TFIDF 等 。 可 以 看 到 通过 这 种 方式 得 到 的 文本 向 量 是 一 个 稀疏 向 量 。 


tH 
| 
= 


5.5.1 MMA Et 


由 于 训练 数据 标注 以 及 量 级 的 原因 ， 在 英文 文本 向 量化 的 过 程 中 ， 选 择 的 向 量化 方式 为 字母 级 的 文本 向 量化 方式 ， 为 了 简化 语音 识别 过 程 ， 首 先 对 文本 中 出 现 的 所 有 字符 进行 替换 ， 仅 保留 字母 ， 具 体 
见 代 码 清单 5-3: 。 


代码 清单 5-3 ”数据 预 处理 


# 引入 正则 表达 式 函 数 库 

import re 

in text = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17708/OEBPS/Text/... 
# 定义 文本 中 出 现 的 所 有 非 字 母 字符 

not char = "'[’!"#$%8()*+,—./:;<=>?@[\\I~ te 

# 将 字母 变换 成 小 写字 母 

text = text.lower () 

# 蔡 换 文本 中 所 有 的 特殊 符号 


text=re.sub(not_ char, '', text) 



































Python 中 提供 了 正则 表达 式 re 模块 ， 该 模块 可 以 提供 字符 审 搜索 、 蔡 换 等 复杂 的 文本 操作 函数 ， 为 后 续 的 数据 处 理 提供 基础 支持 。 在 处 理 英文 文本 向 量化 的 过 程 中 ， 首 先 需要 将 文本 中 出 现 的 大 写字 母 
进行 蔡 换 ， 这 样 就 可 以 减少 标签 数量 ， 简 化 计算 过 程 了 。 这 可 以 利用 Python 本 身 提 供 的 字符 申 方 法 Jower () ， 将 整个 字符 串 蔡 换 成 小 写字 母 。 之 后 再 将 处 理 过 后 的 字符 申 进行 特殊 字符 的 蔡 换 。 蔡 换 之 后 
需要 将 字符 蔡 换 成 数字 ID， 具 体 见 代码 清单 5-4: 


代码 清单 5-4 ”定义 字典 








# 定义 字符 
chars = [' ' lat, "DH! tat; 'q' Tal, 1 t igt; 

oi ae alls nie, 1] 'm', i", to"; Ton tgan; 

‘rl, Vt Tek YI! Ww! tw! ae My ai TACTE '<BLANK>' ] 
# 产 生字 典 


char dict = dict (zip (chars, range (29))) 





首先 需要 定义 文本 中 出 现 的 所 有 字符 ， 二 十 六 个 字母 、 空 格 以 及 缩写 符号 。 在 前 文 的 定义 过 程 中 出 现 了 blank， 这 里 将 blank 定 义 为 最 后 一 个 字符 ， 从 而 建立 字典 ， 具 体 见 代码 清单 5-5: 


代码 清单 5-5 ”字典 展示 




















# 形成 的 字 } 





{* tT 0 “at Ly Sots 2, “ee 3, Tari Ap “es -5y “Es 6, 
Toe. Anes By Ere 9p “yh LO, TKR dds. Ts 12; ms T3; 
"ats. 14 “otro, Tpi Dope 1a": Ty, tae 18, “sts 19y TEE 207 


Mahe 2, IVE 22, ‘wis 23, "Ks 24, yy": 25, “2's 26, TMo 27, *<BLANK>!: 28} 





对 于 形成 的 字典 来 说 ， 需 要 进行 持久 化 ， 在 训练 完成 后 所 形成 的 深度 神经 网 络 模型 需要 与 相应 的 字典 相 匹配 。 定 义 函 数 将 文本 字符 串 转换 为 数字 表示 形式 ， 有 具体 见 代 码 清单 5-6: 


代码 清单 5-6 ”定义 字符 转换 函数 


word to num = lambda x:char dict.get(x, len(char dict) ) 
text = [word to num(itr) for itr in text] 











定义 字符 串 转换 函数 方法 后 可 以 将 字符 串 转换 为 数字 表示 ， 具 体 见 代码 清单 5-7: 


代码 清单 5-7 转换 结果 


T3; 25; U; 14) dy 13y Dr Uy 9, 19; OF 3p 25] 


代码 清单 -7 是 原 字 符 串 与 其 向 量化 的 结果 。 可 以 看 到 对 于 英文 文本 来 说 ， 向 量化 是 比较 简单 的 。 整 个 过 程 类 似 于 对 于 每 个 字符 标注 单独 的 ID， 这 个 ID 并 没有 要 求 特定 的 顺序 。 但 要 保证 其 可 以 覆盖 所 
有 出 现 的 文字 。 由 于 所 得 的 文本 序列 为 密集 和 矩阵， 因此 需要 将 其 转换 为 稀 踢 和 矩阵 ， 以 用 于 ctc loss 函 数 的 label 输 入 ， 具 体 见 代 码 清单 5-8。 


代码 清单 5-8 文本 向 量化 


import numpy as np 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17708/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
indices = [] 
values = [] 
# SRD iit RE BE IY R S A 
for tI, target in enumerate (text): 
for seqI, val in enumerate (target): 
indices.append([tI, segI]) 
values .append (val) 
HAIER shape 
shape = [len (text), np.asarray (indices) .max (axis=0) [1]+1] 
J FÉRT Et HE BE BS BL 
np.array (indices) 
np.array (shape) 
np.array (values) 



































































































































稀 朴 矩阵 有 三 个 参数 : 和 矩阵 的 形状 、 索 引 、 取 值 。 这 三 个 参数 可 形成 用 于 TensorFlow 预 测 的 标签 ， 由 此 用 于 机 器 学 习 库 TensorFlow 文 本 向 量化 的 完成 。 


5.5.2 PMMA Ett 


中 文 文本 向 量化 需要 处 理 的 过 程 比 英文 文本 更 复杂 。 这 里 需要 将 中 文 文 本 的 向 量化 定义 为 “ 字 ” 级 的 向 量化 。 传 统 的 中 文 文 本 处 理 过 程 中 ， 需 要 进行 分 词 处理 ，Python 中 含有 相应 的 分 词 库 ， 具 体 见 代 
码 清单 5-9: 


代码 清单 5-9 ”分词 


# 分 词 库 
import jieba 

HAE 

trings = "今天 天 气 很 不 错 ， 想 出 去 打 篮 球 。" 
分 词 结果 


trs = list(jieba.cut (strings) ) 








Mn +N 


运行 结果 如 代码 清单 5-10 所 示 : 

代码 清单 5-10 ”分词 结果 

[' 今 天 天 气 '，' 很 '，' 不 错 '，'，'，' 想 '，' 出 去 '，' 打 篮球 '，""] 

分 词 处 理 的 结果 是 适用 于 传统 的 文本 分 类 处 理 方法 的 ， 因 为 单个 字 所 携带 的 有 效 信息 有 限 ， 因 此 需要 将 单字 组 合成 词 以 扩大 文本 信息 量 。 但 是 这 种 处 理 在 进行 语音 识别 的 过 程 中 所 需要 的 文本 标签 量 会 


比较 大 。 同 时 还 可 以 看 到 ， 对 于 本 身 而 言 ， 分 词 过 程 就 相当 于 是 一 个 浅 层 的 神经 网 络 ， 因 此 在 处 理 的 过 程 中 会 出 现 分 词 的 问题 。 如 上 面 代码 示例 中 的 “今天 天 气 ” 可 以 分 成 两 个 词 ， 也 可 以 当 作 单一 词汇 进 
行 处 理 。 这 种 不 确定 性 对 于 语音 识别 来 说 也 是 不 利 的 ， 因 此 中 文 语音 识别 过 程 处 理 的 单位 为 “ 字 ” 级 。 这 种 方式 需要 借助 于 神经 网 络 强大 的 表达 能 力 ， 其 处 理 的 方式 如 代码 清单 5-11 所 示 : 


代码 清单 5-11 单字 处 理 


[' 今 "， 1 TY oa a Mk", "A, ' 错 '， tyt 
; ' 想 '， ET SSRA "tT ', VEY TER! , 1。 可 


由 于 汉字 的 字符 量 很 多 ， 因 此 在 处 理 过 程 中 需要 对 文本 进行 统计 。 对 出 现 频次 比较 高 的 字 进 行 标注 ， 而 其 他 出 现 频次 较 低 的 字 则 将 其 省 略 。 这 种 处 理 方式 是 合理 的 ， 汉 语 中 常见 的 3500 个 字 已 经 可 以 进 
行 正常 的 表达 ， 因 此 在 建立 字典 的 过 程 中 ， 可 以 参考 这 个 量 级 。 但 是 相 比 于 英文 的 文本 标签 数量 汉语 依然 大 了 两 个 数量 级 。 为 了 快速 进行 字符 排序 的 任务 ， 需 要 的 库 为 collections， 其 提供 了 很 多 关于 集合 


的 方法 ， 具 体 见 代 码 清单 5-12: 


代码 清单 5-12 ”按照 词 频 高 低 统 计 字符 


counter = collections.Counter (all words) 
count pairs = sorted(counter.items(), key=lambda z: -x[1]) 
words, _ = zip(*count pairs) 





通过 对 文档 中 所 有 的 词 all wrods 列 表 进 行 统计 ， 可 以 将 词 频 从 高 到 低 进行 排列 。 在 这 里 ， 取 前 3500 个 字 进 行 处 理 。 获 取 词 后 的 处 理 方式 与 英文 文本 的 类 似 : 建立 字典 ， 并 将 序列 向 量化 。 比 如 对 于 “ 今 
天 天 气 不 错 。” 这 和 句 话 可 以 映射 为 代码 清单 5-13 所 示 的 内 容 : 


代码 清单 5-13 ”向 量化 结果 


[3397 37 133; Lr 3027.1] 





可 以 看 到 ， 中 文 文本 ID 的 变化 范围 相 比 于 英文 文本 是 比较 大 的 ， 这 是 对 于 字母 级 别 的 比较 来 说 的 。 


5.5.3 ”文本 标签 比 对 


神经 网 络 是 无 法 直接 处 理 整 型 数字 的 ， 因 此 需要 将 文本 ID 进 行 转化 。 对 于 神经 网 络 的 输出 来 说 ， 这 是 一 个 典型 的 分 类 问题 。 对 于 英文 文本 来 说 ， 其 类 为 26+2+1=29 个 ， 而 对 于 中 文 文本 来 说 ， 总 类 别 
为 3500+2+1=3503 个 ， 多 分 类 问题 所 用 的 损失 遂 数 为 交 义 粹 。 而 前 面 所 说 的 需要 对 文本 ID 进 行 类 似 于 onehot 编 码 ， 以 适用 于 分 类 问题 交叉 灼 产生 。TensorFlow 中 提供 的 ctcloss 函 数 中 提供 了 ID 编 码 转 
换 的 过 程 和 softmax 过 程 ， 因 此 我 们 在 输入 标签 的 过 程 中 ， 直 接 输入 文本 ID 即 可 。 但 是 由 于 神经 网 络 本 身 的 输出 可 能 与 文本 向 量 长 度 并 不 匹配 ， 因 此 需要 在 最 后 一 层 中 加 入 全 链接 层 ， 以 使 得 文本 标签 数量 
与 神经 网 络 输出 相 匹配 。 具 体 见 代码 清单 5-14: 


代码 清单 5-14 引入 库 函 数 





# 引 入 高 层次 API 
from tensorflow.python.layers import core as layers core 
# 定 义 输出 层 
full layer = layers core.Dense(vocab size) 
# 进 行 全 链接 操作 
out puts = full layer (outputs) 
































输出 层 数量 的 定义 与 字典 维度 相同 ， 这 样 进行 全 链接 操作 之 后 ， 输 出 向 量 的 维度 变化 为 : 
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， 神 经 网 络 特征 数量 ] 
文本 字典 长 度 ] 





[BATCHSIZE， 最 大 时 间 
-通过 全 链接 层 -> 
[BATCHSIZE， 最 大 时 间 
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这 样 就 可 以 进行 单个 字 级 别 的 分 类 损失 函数 的 计算 了 ， 而 对 于 整个 序列 的 损失 函数 的 计算 则 需要 用 到 前 文中 提 到 的 CTC Loss 计 算 过 程 。 
可 以 看 到 ， 对 于 语音 识别 任务 而 言 ， 其 预 处 理 过 程 是 十 分 复杂 的 ， 其 包含 了 很 多 向 量化 、 降 维 、 升 维 过 程 。 而 在 整个 过 程 中 ， 我 们 只 需 搭建 好 相应 的 网 络 即 可 ， 自 由 参数 调整 过 程 交 给 神经 网 络 自 适 应 


一 一 
[=] 


进行 即 可 。 而 这 也 是 利用 TensorFlow 等 高 层次 机 器 学 习 APl 进 行 数据 处 理 比较 方便 的 地 方 。 


5.6 “完整 构建 昼 经 网 络 


在 学 习 用 于 语音 识别 的 深度 神经 网 络 之 前 ， 需 要 明确 其 输入 与 输出 ，5.3 节 介绍 了 用 于 语音 识别 的 CNN 和 RNN 结 构 ， 这 两 种 网 络 结构 并 没有 本 质 的 区 别 ， 都 可 以 写成 输入 与 输出 的 映射 ， 如 图 5-13 所 


Jo 





图 5-13 ”语音 识别 过 程 


由 图 5-13 可 知 ， 用 于 语音 识别 网 络 的 输入 为 MFCC 特 征 数据 ， 而 输出 为 文本 标签 概率 。 在 理想 状态 下 可 以 直接 利用 语音 波形 作为 输入 ， 但 是 这 个 过 程 需要 的 神经 元 数目 较 多 。 


5.6.1 构建 CNN 识 别 网 络 


首先 对 于 输入 的 MFCC 时 序数 据 进 行 一 维 卷 积 操 作 ， 具 体 见 代码 清单 5-15 和 代码 清单 5-16: 


代码 清单 5-15 ”定义 卷 积 








with tf.variable scope ('conv layerl1'): 
out = self.convild layer (self.input data, dim=n_dim) 

















其 中 conv1d layer 是 自 定义 的 卷 积 国 数 : 


代码 清单 5-16 “一 维 卷 积 函数 











def convld_layer(self, input tensor, size=1, dim=128, bias=False, activation='tanh'): 
shape = input tensor.get shape().as list () 













































































kernel = tf.get variable ('kernel', (size, shape[-1], dim), dtype=tf.float32, initializer=tf.contrib.layers.xavier initializer () ) 
if bias: 
b = tf.get variable('b', [dim], dtype=tf.float32, initializer=tf.constant initializer (0) ) 
out = tf.nn.convld(input tensor, kernel, stride=1, padding='SAME') + (b if bias else 0) 
if not bias: 





bn = batch norm () 

out = bn (out) 
out = self.activation wrapper (out, activation) 
self.convld index += 1 
return out 





























自 定 义 的 卷 积 函数 相 比 于 一 维 卷 积 过 程 多 了 batchnorm 操 作 ，batchnorm 可 以 有 效 地 防止 梯度 消失 问题 ， 使 得 训练 过 程 更 加 快速 高 效 。 而 激活 函数 选择 为 tanh 并 未 选择 relu 的 原因 是 ，relu 在 训练 过 程 
中 可 能 会 出 现 数 值 超过 阅 值 的 问题 。 在 进行 一 次 卷 积 操作 提取 有 效 特征 后 即 可 输入 ResNet 进 行 更 进一步 的 特征 提取 与 构建 ， 具 体 见 代码 清单 5-17: 


代码 清单 5-17 定义 ResNet 部 分 








with tf.variable scope('ResNet'): 

for itr nb in range(n blocks): 
with tf.variable scope('ResNet%d'%Sitr nb): 

for r in [1, 2, 4, 8, 16]: = 
out, s = self.residual block (out, size=7, rate=r, dim=n dim) 
skip t= s B = 












































JAAR, SRE RAA ARERR, IK MRIS BNA BE Aresidual block () ， 具 体 见 代 码 清单 5-18: 


代码 清单 5-18 残 差 网 络 函数 







































































def residual block(self, input tensor, size, rate, dim): 
with tf.variable scope('flitersd'srate) : 
conv filter = self.aconvid layer (input tensor, size=size, rate=rate, activation='tanh"') 
with tf.variable scope ('gate%sd'srate) : 
conv gate = self.aconvld layer (input tensor, size=size, rate=rate, activation='sigmoid') 
with tf£.variable scope('conv%d'%rate): | 























o 
out = conv filter * conv gate 
out = self.convld layer (out, size=1, dim=dim) 
return out + input tensor, out 




















在 函数 中 输入 数据 矩阵 进行 两 次 卷 积 ， 一 次 卷 积 激活 函数 为 tanh， 用 于 进行 特征 提取 ， 卷 积 后 所 获得 的 和 矩阵 为 conv filter。 另 一 次 卷 积 的 激活 函数 为 sgmoid， 这 个 卷 积 结果 所 获得 的 和 矩阵 为 
conv_gate。 之 后 将 两 个 卷 积 所 获得 的 结果 进行 elementwise 乘 积 得 到 out， 由 于 conv_gate 的 取 值 范围 为 0 ~ 1， 因 此 可 以 看 成 是 控制 conv filter 输 出 能 量 的 门 ， 因 此 将 其 称 为 gate。 最 终 将 相 乘 结果 out 与 
输入 和 矩阵 进行 相 加 ， 这 个 过 程 就 构成 了 一 个 完整 的 ResNet 子 层 。 通 过 这 种 跨 层 的 相 加 可 以 使 得 梯度 在 计算 过 程 中 更 加 有 效 ， 从 而 避免 出 现 梯度 问题 。 同 时 将 out 也 作为 函数 的 输出 ， 为 后 续 预 测 做 准备 。 


注意 这 里 的 卷 积 并 非 传统 的 卷 积 而 是 空洞 卷 积 ， 可 将 其 封装 成 函数 形式 ， 具 体 见 代码 清单 5-19: 


代码 清单 5-19 ”空洞 卷 积 




















def aconvid_ layer (self, input tensor, size=7, rate=2, bias=False, activation='tanh'): 





shape = input tensor.get shape().as list () 

























































































kernel] tf.get variable('kernel', (1, size, shape[-1], shape[-1]), dtype=tf.float32, initializer=tf.contrib.layers.xavier initializer () ) 
if bias: 
b = tf.get variable ("b", [shape[-1]], dtype=tf.float32, initializer=tf.constant initializer (0)) 
out = tf.nn.atrous conv2d(tf.expand dims (input tensor, dim=1), kernel, rate=rate, padding="SAME') 
out = tf.squeeze (out, [1]) 











if not bias: 
bn = batch norm () 
out = bn (out) 
out = self.activation wrapper (out, activation) 
self.aconvld_index += 1 
return out 




















空洞 卷 积 并 没有 传统 卷 积 操作 中 stride 变 量 ， 取 而 代 之 的 是 rate 参 数 。 其 定义 了 在 图 像 上 进行 卷 积 采样 的 间隔 。 其 在 卷 积 核心 中 插入 了 数量 为 rate-1 的 “空洞 ”， 这 使 得 卷 积 的 核心 感受 野 变 大 。 当 
rate=1 时 ， 所 对 应 的 是 普通 的 卷 积 操作 。 


可 以 看 到 ， 通 过 这 种 方式 构建 的 深度 神经 网 络 其 过 程 更 加 简单 ， 而 且 可 读 性 更 强 。 在 后 续 的 处 理 过 程 中 每 一 个 子 层 均 为 ResNet 结 构 ， 如 图 5-14 所 示 。 
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图 5-14 ResNet 概 览 及 其 子 层 结构 


最 终 将 每 一 子 层 的 输出 相 加 作为 ResNet 的 输出 。 输 出 之 后 再 进行 后 续 的 卷 积 操作 ， 具 体 见 代 码 清单 5-20: 


代码 清单 5-20 ”输出 层 








with tf.variable scope('logit outl'): 









































logit = self.convld layer (skip, dim=skip.get shape() .as list() [-1]) 
with tf.variable scope('logit out2"'): 
self.logit = self.convld_ layer (logit, dim=n out, bias=True, activation=None) 




















在 多 个 ResNet 卷 积 层 之 后 加 入 普通 卷 积 以 进一步 提取 特征 。 最 后 一 层 卷 积 操作 的 输出 维度 为 文本 字典 的 长 度 ， 用 于 loss 的 建立 ，loss 函 数 见 代码 清单 5-21 : 


代码 清单 5-21 loss 函 数 














loss = tf.nn.ctc loss (target, self.logit, self.seq_ len, time _major=False, ignore longer outputs than inputs=True) 
self.cost = tf.reduce mean (loss) 























由 此 即 可 将 loss 函 数 直 接应 用 于 训练 过 程 了 ， 这 里 选择 的 优化 器 为 Adam。 这 种 优化 方式 可 以 使 得 训练 过 程 更 加 平缓 。 


至 此 用 于 语音 识别 的 CNN 结 构 构建 完毕 。 


5.6.2 ”用 于 语音 识别 的 RNN 


用 于 语音 识别 的 RNN 是 在 基础 的 RNN 上 所 进行 的 改进 ， 为 了 处 理 时 序 依赖 问题 ， 引 入 了 双向 RNN (Bidirectional recurrent neural networks, BRNN) 。 如 图 5-15 所 示 的 为 传统 RNN 结 构 与 BRNN 结 
构 的 对 比 。 





a) 传统 RNN 结构 b) BRNN 结构 


图 5-15 ”BRNN 结 构 对 比 


由 于 传统 的 RNN 随 着 时 间 步 的 增多 其 预测 效果 会 变 差 ， 因 此 在 语音 处 理 的 过 程 中 ， 将 输出 过 程 由 单纯 的 正 向 输入 ， 改 为 双向 输入 ， 以 改善 单 向 输入 过 程 所 产生 的 后 续 输 出 效果 变 差 的 问题 。 由 图 5-15 可 
知 ，BRNN 结 构 相 比 于 传统 的 RNN 结 构 多 出 了 一 个 RNN 单 元 ， 用 于 进行 反 向 输出 。 因 此 其 需要 定义 两 个 RNN 单 元 ， 具 体 见 代码 清单 5-22 : 


代码 清单 5-22 ”定义 两 个 RNN 单 元 








forward cell = cell fn(args.num hidden, activation=args.activation) 
backward cell = cell fn(args.num hidden, activation=args.activation) 























这 里 的 RNN 单 元 选择 为 LSTM 单 元 ， 因 为 语音 识别 任务 中 ， 前 后 文 比较 重要 ， 而 激活 函数 的 选择 为 tanh， 这 是 因为 在 语音 识别 任务 中 ， 文 本 长 度 通常 比较 长 ， 这 样 在 后 续 计 算 过 程 中 ， 部 分 单元 可 能 会 
变 得 很 大 以 至 于 难以 计算 。 定 义 两 种 RNN 单 元 后 可 以 进行 输入 并 进行 展开 ， 这 里 TensorFlow 提 供 了 类 似 于 dynamic_rnn 的 函数 ， 具 体 见 代码 清单 5-23 : 


代码 清单 5-23 ”双向 RNN 





outputs, output states = bidirectional dynamic rnn (forward cell, 
backward_cell, 
inputs=hid input, 
dtype=tf.float32, 
sequence length=seqLengths, 
time major=True, 
scope=scope) 


























返回 的 outputs 带 有 两 个 RNN 单 元 的 输出 ， 具 体 见 代 码 清单 5-24: 


代码 清单 5-24 ”获取 输出 











output fw, output bw = outputs 
output state fw, output state bw = output states 




















在 计算 后 将 二 者 所 得 的 特征 相 加 ， 具 体 见 代码 清单 5-25: 


代码 清单 ?-25 ”输出 特征 处 理 






























































output fb = tf£.concat([output fw, output bw], 2) 

shape = output fb.get shape().as list () 

output fb = tf.reshape (output fb, [shape[0], shape[1], 2, int(shape[2] / 2)]) 
hidden = tf.reduce sum (output fb, 2) 

hidden = dropout (hidden, args.keep prob, (args.mode == 'train')) 





这 样 就 完成 了 BRNN 的 输入 与 输出 过 程 。 对 于 多 层 网 络 而 言 ， 需 要 将 上 述 输 出 hidden， 然 后 继续 输入 下 一 层 BRNN。 输 出 完成 后 将 向 量 形状 修改 为 [max_time，batch_size，input_size]， 具 体 见 代 码 
清单 5-26: 


代码 清单 5-26 (ENKEI 








outputXrs tf£.reshape (hidden, [-1, args.num hidden] ) 
output list = tf.split(outputXrs, maxTimeSteps, 0) 
out = [tf.reshape(t, [args.batch size, args.num hidden]) for t in output list] 


























由 此 ，RNN 结 构 输出 构建 完毕 。 最 后 一 步 的 操作 与 前 文 所 述 相 同 ， 即 在 每 一 步 的 输出 特征 上 加 入 一 个 全 链接 层 用 于 将 隐藏 层 数量 扩充 为 字典 长 度 ， 用 于 预测 特征 ， 具 体 见 代码 清单 5-27: 


代码 清单 5-27 定义 输出 全 链接 层 





with tf.name scope ('fc-layer'): 

































































with tf.variable scope('fc'): 
weightsClasses = tf.Variable( 
tf.truncated normal ( [args .num hidden, args.num class], name='weightsClasses') ) 
biasesClasses = tf.Variable(tf.zeros([args.num class]), name='biasesClasses') 
logits = [tf.matmul(t, weightsClasses) + biasesClasses for t in out] 
logits3d = tf.stack(logits) 
self.loss tf.reduce mean (tf.nn.ctc loss(self.targetY, logits3d, self.seqLengths) ) 


























至 此 ， 用 于 语音 识别 的 CNN 结 构 构 建 完毕 。 


5.7 ”数据 训练 





训练 过 程 中 需要 提供 MFCC 数 据 ， 但 是 由 于 不 同 语音 的 长 度 并 不 相同 ， 而 且 在 每 次 迭代 的 过 程 中 ， 需 要 提供 的 MFCC 数 据 的 长 度 为 固定 长 度 ， 因 此 需要 对 数据 进行 的 处 理 为 数据 对 齐 操作 。 对 于 数据 对 
齐 操作 而 言 ， 其 操作 方式 为 补 0 操作 ， 这 种 操作 可 以 利用 Numpy 来 完成 ， 具 体 见 代码 清单 5-28: 


代码 清单 5-28 ”获取 数据 索引 





batchInputs = np.zeros((maxLength, batchSize, nFeatures) ) 
# randIxs 为 数据 索引 
for batchI, origI in enumerate (randIxs[start:end]): 
# 计算 需要 补 齐 0 的 个 数 
padSecs = maxLength - inputList[origI].shape[1] 
# numpy.pad 用 于 数据 补 齐 操作 
batchinputs[:,batchI,:] = np.pad(inputList[origI], 
((0,padSecs), (0,0)), 'constant', constant values=0) 













































































MFCC 数 据 为 二 维 数据 ， 在 补 齐 过 程 中 直接 填补 0。Numpy 函 数 Pad 的 作用 即 在 于 此 。 作 为 借助 于 神经 网 络 的 强大 表达 能 力 ， 在 计算 的 过 程 中 并 不 需要 对 复杂 的 MFCC 数 据 进行 进一步 的 处 理 。 


对 于 CNN 数 据 而 言 ， 其 直接 在 MFCC 的 三 维 数据 上 进行 卷 积 操作 [batch_size，max _time，num feature]， 对 于 RNN 数 据 而 言 ， 选 择 的 数据 结构 与 CNN 的 数据 有 所 不 同 ，RNN 的 数据 结构 为 
[max time，batch_size，num featurel]， 如 果 想 在 数据 结构 上 与 CNN 数 据 相 同 ， 那 么 可 以 调整 time_major 参 数 将 其 设置 为 False， 这 样 ，CNN 在 输入 数据 中 就 与 RNN 的 输入 数据 完全 相同 了 。 


在 GPU 的 计算 过 程 中 ， 由 于 所 需要 的 参数 数量 较 多 ， 网 络 比较 复杂 ， 因 此 可 能 遇 到 的 问题 为 计算 资源 耗 尽 。 这 种 耗 尽 通常 是 由 GPU 显存 不 足 所 引起 的 ， 因 此 在 计算 的 过 程 中 ， 可 以 减少 GPU 内 存 的 使 
用 ， 这 里 的 一 种 解决 方式 是 适当 地 调整 batch_size 的 大 小 。 过 大 的 batch_size 会 使 得 进行 梯度 计算 时 保存 过 多 的 临时 信息 ， 这 会 使 得 内 存 消耗 显著 增多 。 另 外 一 种 解决 方式 是 将 部 分 变量 分 配 到 内 存 之 中 ， 
但 是 这 个 过 程 对 于 程序 的 改动 比较 大 。 如 图 5-16 所 示 的 为 最 终 训练 曲线 。 


由 图 5-16 可 以 看 到 ，loss 函 数 在 迭代 100 回 合 的 时 候 就 已 经 可 以 获得 比较 好 的 效果 ， 继 续 迭 代 效 果 不 再 提高 。 这 一 方面 是 精度 已 经 满足 了 需求 ， 可 以 终止 迭代 ; 另 一 方面 是 由 于 网 络 本 身 的 表达 能 力 限 
制 ， 无 法 提供 更 高 的 精度 所 致 。 
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A5-16 ”训练 曲线 


5.8 ”参数 调 优 


对 于 参数 初始 化 而 言 ， 选 择 的 初始 化 方式 为 xavier 初 始 化 方法 ， 这 里 TensorFlow 为 我 们 提供 了 相应 的 函数 ， 具 体 见 代 码 清单 5-29: 


代码 清单 5-29 ”定义 xavier 初 始 化 





tf£.contrib.layers.xavier initializer () 











这 种 初始 化 的 方式 可 以 有 效 地 加 快 神经 网 络 的 迭代 速度 。 其 适用 于 激活 函数 为 tanh 的 情况 。 


用 均匀 分 布 的 随机 数据 对 权 值 进行 初始 化 ， 其 上 下 限 可 以 为 : 





scale=sqrt (6/ (num in+num out) ) 
w=uniform(low=-scale,high=scale, size=[num in,num out]) 






































为 了 防止 过 拟 合 问题 ， 加 入 dropout 是 合理 的 ， 在 训练 过 程 中 选择 的 取 值 为 0.5。 过 大 的 dropout 值 会 使 得 防止 过 拟 合 效果 不 明显 ， 而 过 小 的 取 值 则 会 使 得 迭代 过 程 变 得 缓慢 甚至 于 不 收敛。 
用 于 语音 识别 的 激活 函数 选择 为 tanh。sigmoid 激 活 函 数 由 于 其 输出 均值 为 非 零 ， 而 这 会 引起 训练 问题 ， 因 此 除了 在 gate 等 有 需要 输出 取 值 在 0-1 之 间 的 情况 ， 其 他 情况 下 不 考虑 选择 sigmoid。 而 
ReLU 激 活 函 数 由 于 和 迭代 时 间 步 较 多 ， 因 此 容易 出 现 取 值 过 大 的 问题 ， 这 里 选择 的 激活 函数 为 tanh。 


由 于 训练 集 数据 较 大 ， 因 此 在 训练 的 过 程 中 选择 的 梯度 优化 算法 为 adam， 这 样 经 过 验证 其 效果 比 梯度 下 降 法 的 效果 要 明显 。 在 学 习 率 上 ， 对 于 初始 几 次 的 迭代 ， 选 择 小 的 取 值 进行 预 热 ， 之 后 即 可 选 
择 较 大 的 学 习 率 以 加 快 学 习 速 度 ， 在 取得 比较 好 的 效果 或 学 习 曲 线 不 产生 明显 减低 后 ， 需 要 再 降低 学 习 率 。 如 果 继 续 现 有 模型 进行 训练 ， 则 需要 一 个 小 的 学 习 速 率 。 


RNN 的 dim、embeding size 选 择 为 256， 在 这 个 维度 上 可 以 获取 较 好 的 效果 ， 过 大 的 size 会 使 得 计算 消耗 显著 增多 ， 效 果 反 而 并 不 明显 。 


i 


batchsize 选 择 为 30， 过 大 的 batchsize 会 使 得 在 GPU 中 耗 尽 硬 件 资 源 ， 同 时 最 关键 的 问题 是 batchsize 在 取 值 较 大 的 时 候 效 果 并 不 明显 ， 反 而 会 使 得 单 次 迭代 速度 过 
在 每 一 层 中 都 加 入 batchnorm 操 作 ， 这 会 显著 改善 梯度 迭代 效果 ， 使 得 网 络 可 以 更 加 高 效 地 进行 训练 。 而 相应 的 在 有 了 bn 操作 后 去 均值 操作 显得 并 不 重要 。 


Bie 


随机 化 样本 输入 ， 昌 然 对 于 语音 操作 而 言 ， 随 机 化 输入 显得 不 那么 重要 ， 但 是 依然 需要 进行 随机 化 操作 以 免 出 现 问题 。 


5.9 ”实际 数据 分 析 


这 里 利用 libri100 小 时 的 英文 数据 作为 训练 集 ， 处 理 过程 中 的 标签 为 字母 级 别 ， 返 代 100 回 合 后 所 得 的 结果 。 平 均 文 本 编辑 距离 为 0.081， 损 失 函 数 为 51.0， 具 体 如 下 : 
原文 : 


but his two lab guards and one of the raiders were killed the others got away gess fayle's defection was a certainty by then and everybody was very nervous the feds got there fast and dead brained the raider they learned just 


two things 
预测 : 
but his too lab gards and one of the raiders were killd the others got way gust fals defection was af sertainty by thenn and everybody was very nervous the feds got there fast and deadbrin the reader they learned just two things 
原文 : 
and as for brownie he was so frightened that he dropped his basket right in the water i mean said mister crow 
预测 : 
and as for brownie he was so frightened that he dropped his basket right in the water i men said mister crow 


可 以 看 到 ， 对 于 100 回 合 之 后 的 语音 识别 效果 已 经 可 以 满足 粗略 的 需要 。 但 是 对 于 一 些 较 长 的 单词 ， 在 识别 的 准确 性 上 依然 存在 问题 。 语 音 识 别 任 务 中 并 不 需要 很 长 的 前 后 文 信息 ， 因 此 CNN、RNN 等 
均 可 以 较 好 地 完成 任务 。 对 于 仍然 存在 的 错误 问题 ， 这 里 的 解决 方式 包括 增加 训练 集 数量 、 加 深 网 络 结构 以 及 继续 进行 训练 等 。 


5.10 EJA 


本 章 介 绍 了 两 种 用 于 语音 识别 的 深度 神经 网 络 ， 一 种 CNN 结 构 ， 一 种 RNN 结 构 。 通 常 而 言 ，RNN 结 构 比 CNN 更 适合 用 于 自然 语言 处 理 任务 ， 但 是 这 种 直观 的 感受 并 不 能 说 明 问 题 。 事 实 上 ， 十 层 的 
CNN 结 构 可 能 比 两 层 的 RNN 结 构 更 优秀 。 其 中 最 主要 的 问题 在 于 CNN 相 比 于 RNN 来 说 ， 前 者 更 容易 训练 ， 并 且 不 易 出 现时 间 步 过 长 导致 的 梯度 问题 。 


当然 ， 现 有 CNN+RNN 结 合 的 方式 进行 语音 识别 ， 这 属于 对 现 有 网 络 的 深度 改进 。 可 以 适用 于 直接 从 波形 到 文本 的 输出 。 但 是 现 阶段 利用 MFCC 到 文本 这 个 过 程 已 经 可 以 很 好 地 完成 语音 识别 任务 了 。 


第 6 草 ”对 话机 器 人 


本 章 将 介绍 深度 学 习 的 典型 应 用 场景 一 一 对 话机 器 人 。 本 章 将 为 读者 介绍 对 话机 器 人 的 一 些 基础 概念 、 应 用 和 支撑 技术 。 对 话机 器 人 涉及 的 技术 非常 广泛 ， 本 书 的 主题 是 深度 学 习 ， 因 此 本 章 将 着 重 介 
绍 深度 学 习 在 对 话机 器 人 中 的 应 用 以 及 如 何 构建 对 话机 器 人 。 


随 着 人 工 智 能 与 深度 学 习 技术 的 发 展 ， 很 多 互联 网 公司 均 构 建 了 对 话机 器 人 应 用 ， 有 的 用 作客 服 ， 有 的 用 作 工作 助手 ， 也 有 的 用 作 娱 乐 化 。 他 们 将 对 话机 器 人 看 作 未 来 流量 和 服务 的 潜在 入 口 。 对 话机 


器 人 的 支撑 技术 很 多 ， 本 书 将 围绕 深度 学 习 技术 ， 主 要 介绍 如 何 采 用 深度 学 习 构 建 对 话机 器 人 。 本 章 同时 配合 实例 进行 介绍 ， 将 构建 深度 学 习 的 对 话机 器 人 流程 化 、 细 化 ， 让 读者 可 以 更 为 具体 地 了 解 如 何 
构建 对 话机 器 人 。 


6.1 ”对 话机 器 人 概述 与 应 用 领域 


对 话机 器 人 是 目前 非常 热门 的 人 工 智 能 与 深度 学 习 的 
对 话机 器 人 。 近 几 年 一 些 大 公司 和 厂商 也 相继 推出 相应 的 
支撑 和 拓展 业务 。 


品 与 研发 方向 。 对 话机 器 人 (也 可 称 作 聊天 机 器 人 、 聊 天 助手 等 ) 是 用 来 模拟 人 类 对 话 或 聊天 的 程序 或 服务 。“Eliza” 和 “Parry” 是 早期 的 经 典 


产 
产品 ， 如 微软 的 小 冰 、 小 娜 ， 苹 果 的 Siri， 亚 马 逊 的 Alexa。Slack、 星 巴克 等 公司 也 开始 在 客户 服务 、 联 网 家 居 和 网 上 订 花 等 场景 中 使 用 对 话机 器 人 


目前 市 场 上 有 很 多 公司 在 这 个 领域 进行 研发 ， 无 论 是 大 的 互联 网 公司 FER. CHK. AM) ， 还 是 创业 公司 。 较 为 知名 的 产品 如 苹果 Siri、 微 软 小 娜 和 小 冰 、Google Now、 百 度 的 “ 度 秘 ”等 。 各 种 对 
话机 器 人 不 仅 能 够 吸引 用 户 的 对 话 和 流量 ， 解 决 现实 客服 问题 ， 拓 展开 来 的 话 也 可 以 扩展 和 带动 其 他 服务 与 应 用 ， 例 如 ， 天 和 气 查询 、 航 旅 服务 、 智 能 家 居 、 导 航 、O2O 等 。 
接 下 来 我 们 了 解 以 下 几 种 经 典 的 对 话机 器 人 产品 。 


1. 苹 果 Siri 


sir 是 苹果 公司 在 其 产品 iPhone、iPad 和 Mac 上 安装 的 智能 语音 对 话机 器 人 。 利 用 Siri， 用 户 可 以 通过 手机 读 取 短 信 、 查 询 天 气 、 设 置 闹钟 等 ， 当 用 户 不 方便 使 用 手机 按键 操作 时 ， 可 以 通过 Siri 语 音 进 
行 更 加 方便 的 操作 。 


2 .微软 小 娜 与 小 冰 


微软 小 娜 (Cortana) 是 智能 助理 应 用 。 她 可 以 帮助 你 管理 日 程 、 设 置 闹钟 、 打 电话 、 发 信息 、 打 开 应 用 、 搜 索 、 导 航 、 翻 译 ， 并 回答 你 的 任何 问题 。 还 能 根据 你 的 喜好 ， 主 动 推荐 专属 于 你 的 定制 信 
息 。 同 时 还 可 以 和 Office 等 办 公 套 件 进行 集成 ， 是 一 个 应 用 于 商务 工作 场景 下 的 、 很 方便 的 对 话机 器 人 。 


微软 小 冰 是 微软 中 国 研 发 的 一 款 智能 聊天 机 器 人 ， 图 6-1 为 用 户 与 小 冰 的 交互 对 话 实 例 。 除 了 智能 聊天 之 外 ， 小 冰 还 兼 具 事务 提醒 、 天 气 、 星 座 、 交 通 指南 、 餐 饮 点 评 等 实用 功能 ， 并 能 够 向 第 三 方 公司 
及 机 构 提 供 对 话机 器 人 服务 。 其 不 断 扩展 的 功能 和 增长 的 用 户 使 得 其 在 闲聊 对 话 等 场景 下 均 取得 了 不 错 的 成 绩 。 
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话说 金牛 和 金牛 在 一 起 不 会 很 


地 

近期 运势 明显 好 转 ， 特 别 是 8 
月 29 日 这 天 ， 讲 巨 艇 座 主 观 意 
IRAE SY, RTPA N 
渐 上 升 ， 会 对 运势 带 来 不 利 影 
了 响 。 不 妨 安 排 短程 旅行 ， 可 以 
帮助 运势 有 小 的 回归 哦 。 
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图 6-1 小 冰 对 话 实例 


3.Google Now 


Google Now 是 谷歌 在 MO 开发 者 大 会 上 发 布 的 一 款 应 用 ， 它 会 全 面 了 解 你 的 各 种 习惯 和 正在 进行 的 动作 ， 并 根据 它 所 了 解 的 信息 来 为 你 提供 相关 信息 。Google Now 后 续 整合 了 语音 搜索 和 Google 
Now Launcher， 成 为 Android 设 备 的 总 管家 ， 渗 透 在 设备 使 用 的 方方面面 。 类 似 于 Google， 其 他 手机 厂商 如 小 米 等 也 在 积极 开发 相应 设备 预 装 的 对 话机 器 人 。 


“ 度 秘 ”是 百度 出 品 的 对 话 式 人 工 智能 秘书 ， 它 基于 DuerOSs 对 话 式 人 工 智能 系统 ， 通 过 语音 识别 、 自 然 语 言 处 理 和 机 器 学 习 ， 可 以 让 用 户 使 用 语音 、 文 字 或 图 片 ， 以 一 对 一 的 形式 与 “ 度 秘 ” 进 行 沟 


E 


综合 以 上 几 家 厂商 推出 的 对 话机 器 人 产品 我 们 可 以 看 到 ， 各 厂商 都 是 基于 相应 公司 的 基因 进行 相应 的 对 话机 器 人 的 开发 ， 有 的 是 为 了 方便 用 户 使 用 设备 ， 有 的 是 方便 用 户 使 用 相应 的 办 公 套 件 ， 还 有 的 
是 纯 基 于 娱乐 场景 而 创新 的 互联 网 产品 。 


6.2 ”对 话机 器 人 主流 拉 术 


对 话机 器 人 的 基础 技术 有 很 多 种 流派 ， 在 具体 的 产品 后 端 可 能 会 基于 不 同 的 场景 ， 应 用 不 同 的 底层 技术 。 产 品 化 对 话机 器 人 的 后 端 可 能 集成 了 不 止 一 种 技术 ， 当 对 话 发 送 到 后 端 进行 逻辑 处 理 时 ， 根 据 
对 话 理解 等 模块 可 能 会 分 发 到 不 同 的 处 理 引 擎 ， 进 行 相应 场景 的 对 话 处 理 。 


6.2.1 基于 模板 的 对 话机 器 人 

基于 人 工 模板 的 技术 可 以 通过 人 工 设 定 对 话 场景 ， 并 对 每 个 应 用 场景 编写 一 些 有 针对 性 的 对 话 模板 。 基 于 模板 的 优点 是 准确 度 高 ， 缺 点 是 需要 大 量 的 人 工 工作 ， 而 且 可 扩展 性 差 ， 随 着 产品 的 复杂 度 越 
来 越 高 ， 可 能 带 来 的 后 续 工作 也 会 越 来 越 多 。 

开发 基于 模板 这 类 的 对 话机 器 人 既 可 以 采用 自 定义 模板 ， 也 可 以 采用 AlML 等 通用 的 标记 语言 。 


AlIML 的 全 称 为 Artificial Intelligence Modelling Language， 是 基于 xm| 格 式 标签 ， 用 于 开发 对 话机 器 人 记 语 言 。AlIML 由 于 其 模板 匹配 相 比 其 他 方式 更 为 精准 ， 因 此 其 主要 应 用 于 专家 系统 或 者 垂直 领 
域内 的 问答 系统 。 它 的 特点 就 是 基于 对 话 模板 的 匹配 ， 需 要 用 户 构 建 和 设计 大 量 的 对 话 库 。 人 在 开发 过 程 中 ， 开 发 者 需要 考虑 到 全 面 的 对 话 场景 ， 扩 充 相应 的 对 话 库 才 能 实现 较 好 的 对 话 体验 。 


6.2.2 ”基于 检索 技术 的 对 话机 器 人 


利用 信息 检索 技术 来 实现 ， 将 对 话语 料 数据 处 理 好 ， 然 后 存储 ， 并 建立 索引 (例如 ， 倒 排 索引) ,将 用 户 问 句 当 作 查 询 语句 ， 在 对 话 库 中 进行 检索 ， 直 到 找 最 合适 的 应 答 内 容 为 止 。 


6.2.3 ”基于 深度 学 习 的 对 话机 器 人 

基于 深度 学 习 的 聊天 机 器 人 是 本 章 后 续 实 例 中 所 采用 的 方法 ， 大 多 都 是 基于 RNN 模 型 Seq2Seq (Encoder Decoder) 在 深度 学 习 模型 下 进行 开发 与 拓展 。 使 用 深度 学 习 技术 来 开发 聊天 机 器 人 相对 之 前 
的 技术 方法 来 说 是 简单 而 且 可 扩展 的 。 

基于 深度 学 习 框 架 的 聊天 机 器 人 具有 如 下 优点 。 


+ 构建 过 程 是 端 到 端 (End-to-End) 数据 驱动 的 ， 只 要 给 定 充足 的 训练 数据 和 主流 模型 即 可 训练 出 效果 还 不 错 的 聊天 系统 ， 省 去 了 很 多 特征 抽取 以 及 中 间 各 种 复杂 步骤 的 处 理 ， 例 如 ， 省 去 了 句法 分 析 
与 语义 分 析 等 传统 NLP 绕 不 开 的 工作 ， 使 得 系统 开发 效率 大 幅度 提高 。 


* 语言 无 关 ， 使 得 在 各 家 公司 世界 范围 布局 的 大 背景 下 ， 能 够 更 加 方便 地 进行 APP 的 本 地 化 。 
* 扩展 性 较 好 ， 持 续 扩 增 训练 数据 有 助 于 持续 提升 系统 效果 。 

当然 ， 基 于 深度 学 习 的 对 话机 器 人 也 存在 如 下 一 些 问题 需要 提升 和 解决 。 
聊天 机 器 人 的 评价 标准 ， 较 难 评定 对 话 效果 。 


: 缺乏 标准 化 的 对 话 大 数据 。 用 户 可 用 的 公开 数据 集 并 不 是 很 多 。 产 品 化 的 方案 式 ， 很 多 大 公司 基于 原 有 的 搜索 基础 架构 和 数据 ， 拥 有 了 先天 构建 对 话机 器 人 的 优势 ， 而 创业 公司 更 容易 切入 进 细 分 领 
域 进 行 相 应 语 料 的 收集 和 功能 拓展 ， 构 建 重 直 细 分 领域 的 对 话机 器 人 。 


6.3 ”对 话机 器 人 的 前 沿 与 功能 扩展 
深度 学 习 对 话机 器 人 除了 可 以 构建 基本 的 对 话 应 用 之 外 ， 各 家 公司 也 在 基础 之 上 扩展 了 额外 的 功能 并 解决 相应 的 问题 。 


1. 多 轮 对 话 上 下 文 

对 话 聊 天 的 过 程 常常 需要 参考 上 下 文 ， 这 也 是 对 话机 器 人 相 比 于 搜索 问题 不 一 样 的 地 方 。 深 度 学 习 解 决 多 轮 对 话 的 一 般 方 法 是 将 上 下 文 因素 引入 Seq2Seq 中 。 如 果 是 Encoder-Decoder 则 对 应 的 是 将 上 
下 文 信息 在 Encoder 端 引入 ， 具 体 方式 可 以 有 很 多 种 。 
2. 多 语言 扩展 


不 同 的 语言 扩展 中 ， 主 要 问题 在 数据 预 处 理 阶段 比较 多 。 例 如 中 文 、 泰 文 等 需要 分 词 ， 以 及 对 不 同 语言 如 何 进行 Embedding， 如 何 将 词 进行 向 量化 的 表示 等 。 


Seq2Seq 深 度 学 习 框 架构 建 的 对 话机 器 人 ， 很 容易 出 现 安全 回答 问题 。 例 如 无 论 用 户 说 什么 内 容 ， 聊 天 机 器 人 都 只 会 用 少数 常见 短 句 应 答 ，“ 你 好 ”“ 呵 呵 ” 等 ， 造 成 用 户 体验 不 好 。 这 种 问题 可 以 通 
过 一 些 方 法 来 解决 ， 例 如 通过 转换 损失 函数 进行 解决 ， 将 传统 的 最 大 似 然 法 的 优化 目标 函数 改 为 最 大 互信 息 的 目标 函数 。 也 可 以 增加 训练 Epoch， 将 模型 训练 得 更 加 充分 ， 或 者 通过 基于 规则 的 方式 对 特定 
的 对 话 进行 补充 性 回答 。 
4. 语 音 识 别 与 TTS 

现 有 的 对 话机 器 人 也 可 以 扩展 将 语音 转换 为 文字 或 将 文字 转换 为 语音 的 功能 。 

语音 识别 可 以 利用 现 有 技术 进行 扩展 ， 既 有 基于 声学 模型 + 语言 模型 的 解决 方案 ， 也 有 基于 深度 学 习 的 End to End 解 决 方案 。 

将 文字 回答 转换 为 语音 ， 可 以 利用 TTS (Text to Speech) 技术 。TTS 中 近年 来 也 在 不 断 地 涌现 出 深度 学 习 的 技术 进行 问题 的 解决 。 

扩展 了 TTS 功 能 之 后 ， 就 能 让 Bot 完 成 以 下 丰富 的 功能 。 

` 讲 故 事 


- 作 诗 词 


TTS 一 般 可 分 为 以 下 几 个 步骤 来 完成 。 
1) 文本 处 理 。 这 一 步 所 要 做 的 事情 是 把 文本 转化 成 音素 序列 ， 并 标 出 每 个 音素 的 起 止 时 间 、 频 率 变化 等 信息 。 
2) 语音 合成 。 指 根据 音素 序列 (以 及 标注 好 的 起 止 时 间 、 频 率 变 化 等 信息 ) 生成 语音 。 
5. 图 像 与 视频 处 理 
Bot 功 能 不 断 扩 展 ， 使 得 Bot 不 仅仅 能 听 会 说 ， 还 可 以 扩展 其 看 的 功能 。 


“ 图 像 识别 


可 以 通过 物体 检测 、 图 像 识 别 等 计算 机 视觉 中 的 模型 进行 扩展 ， 如 YOLO、SSD、CNN 等 。 


以 上 我 们 可 以 看 到 ， 对 话机 器 人 中 除了 基本 的 对 话 功能 之 外 ， 还 可 以 通过 其 他 技术 扩展 其 会 “ 听 ”、 会 “说 ”等 高 级 的 功能 。 


6.4 ”深度 学 习 对 话机 器 人 原理 


由 于 大 多 数 基于 深度 学 习 的 对 话机 器 人 都 采用 Seq2Seq 或 其 扩展 的 框架 ， 因 此 本 节 先 进行 Seq2Seq 框 架 的 介绍 。 


Encoder-Decoder 框 架 可 以 看 作 是 一 种 文本 处 理 领 域 的 研究 模式 ， 应 用 场景 很 广 ， 不 仅 可 以 用 在 对 话机 器 人 领域 ， 还 可 以 应 用 在 机 器 翻译 等 各 种 场合 。 图 6-2 是 文本 处 理 领 域 里 常用 的 Encoder- 
Decoder 框 架 的 一 种 表示 示例 。 





Reply 
ENCODER E Yes, what's up? 
= 
Z 
| eB | LCD UJ LJ 





—— DECODER 


Incoming Email 


图 6-2 Seq2Seq Encodef-Decodet 模 型 


图 6-2 中 的 Encoder 和 Decoder 都 只 展示 了 一 层 普通 的 LSTM Cell。 从 结构 中 可 以 观察 到 ， 整 个 模型 相对 简单 。 其 中 左 侧 的 绿色 方块 是 Encoder Cell， 右 侧 的 蓝 色 方块 是 Decoder Cell， 可 以 用 LSTM 或 
GRU 来 实现 。Encoder Cell 的 最 后 一 个 时 刻 的 状态 的 输出 语义 向 量 为 c， 它 将 作为 Decoder Cell 的 初始 状态 。 然 后 在 Decoder Cell 中 ， 每 个 时 刻 的 输出 都 将 会 作为 下 一 个 时 刻 的 输入 。 以 此 类 推 ， 直 到 
Decoder Cell 遇 到 句子 结束 符号 <END> 结 束 为 止 。 


参考 论文 : Sequence to Sequence Learning with Neural Networks。 


Seq2Seq 框 架 的 输入 和 输出 分 别 为 问 句 和 回答 ， 如 图 6-3 所 示 。 适 合 处 理由 一 个 句子 生成 男 外 一 个 句子 的 通用 处 理 框架 。 先 进行 问题 定义 ， 对 应 的 <X，Y> 中 ，X 表 示 用 户 输 入 语句 ， 而 Y 一 般 表 示 聊 天 机 
器 人 的 回答 语句 。 整 体 运 行 流程 为 ， 用 户 输入 问 句 ， 经 过 Seq2Seq 计 算 ， 首先 由 Encoder 将 问 句 形成 中 间 语 义 表示 C，Decoder 青 根据 中 间 语 义 表示 C 生 成 聊天 机 器 人 的 回答 。 而 在 具体 的 实现 过 程 中 ，X1 如 
果 代表 输入 的 是 一 个 单词 ， 那 么 可 以 通过 Embedding 等 方式 将 输入 转换 为 向 量 输入 Encoder， 如 果 希 望 Decoder 输 出 的 每 个 元 素 也 是 单词 的 话 ， 则 Y1 可 以 表示 Softmax 输 出 的 Y1 所 属 单词 的 概率 ， 虽 然 是 数 
字 化 表示 ， 但 可 以 由 之 前 构建 的 词典 将 其 再 转换 为 单词 反馈 给 Bot 用 户 。 








图 6-3 Seq2Seq Encodeft-Decodet 抽 象 模型 


6.5 ”构建 对 话机 器 人 


接 下 来 我 们 将 采用 深度 学 习 技 术 构建 对 话机 器 人 ， 语 料 采 用 康 奈 尔 电影 对 话 数据 集 进行 训练 。 感 兴趣 的 读者 可 以 基于 整体 框架 ， 扩 展 自 定 义 的 数据 集 (例如 ， 中 文 数据 集 等 ) ， 构 建 更 加 新 颖 的 、 用 于 
特定 领域 的 对 话机 器 人 。 


参考 实例 : https://github.com/Conchylicultor/DeepQA 


6.5.1 Bot 界面 与 交互 


构建 Bot 界 面 可 以 采用 多 种 方式 ， 可 以 是 Web 服 务 、 手 机 搭载 的 App 或 是 接 入 微 信 。 这 里 我 们 选择 扩展 性 良好 的 、 微 软 发 布 的 Bot Framework (官网 介绍 如 图 6-4 所 示 ) ， 方 便 开 发 者 未 来 进行 拓展 之 
FA. Bot Framework 是 微软 发 布 的 一 款 聊 天 机 器 人 开发 框架 。 该 框架 可 以 让 开发 者 更 方便 更 容易 地 构建 对 话机 器 人 等 自然 语言 处 理应 用 ， 也 可 以 基于 Azure 上 的 认 知 服务 ， 扩 展 应 用 的 Al 能 力 ， 其 初期 开放 
了 22 个 可 集成 到 应 用 的 API。 微 软 曾 为 Domino 公 司 制作 了 一 个 聊天 机 器 人 ， 可 以 用 来 代替 传统 的 在 线 订购 系统 ， 开 发 者 可 以 对 该 机 器 人 进行 扩展 和 添加 新 的 功能 。 
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图 6-4 Bot Framework È JIZ 


微软 Bot Framework 同 时 还 拥有 很 好 的 扩展 性 ， 人 允许 开发 者 将 开发 的 机 器 人 对 接 到 其 他 平台 中 。 例 如 ，Skype、 微 信 公众 号 、 电 子 邮 件 和 网 页 等 ， 在 后 面 的 实例 中 ， 我 们 将 以 Bot Framework 作 为 交互 
界面 ， 未 来 可 以 利用 其 良好 的 可 扩展 性 ， 将 Bot 扩 展 到 其 他 平台 上 。 


Bot Framework 底 层 是 基于 Microsoft Bot API 的 包装 器 ， 它 使 用 Flask 接 收 来 自 Microsoft 或 者 本 地 测试 推送 的 post 消 息 ， 进 而 完成 异步 问答 任务 。 


如 果 读 者 有 更 复杂 的 开发 需求 ， 那 么 请 参考 Bot Framework 的 官方 文档 : 


Bot Framework 支 持 C#、Nodejs、Python 等 接口 ， 实 例 采 用 Python 的 接口 进行 开发 和 测试 。 


Bot 框 架 模拟 器 是 一 个 桌面 应 用 程序 ， 它 使 得 开发 人 员 可 以 在 本 地 主机 上 测试 和 调试 它们 的 机 器 人 ， 或 者 通过 Channel 远 程 运行 和 调试 。 


启动 后 的 Bot Framework 如 图 6-5 所 示 。 左 侧 为 Bot 的 UI， 即 对 话 输 入 输出 的 主页 面 ， 右 侧 可 以 显示 传输 的 数据 格式 ， 以 及 调 斌 日志， 以 方便 诊断 程序 开发 中 的 问题 。 


Microsoft Bot Framework Emulator (v3.5.18) 
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图 6-5 Bot Framework Emulators} TE Jot 


在 如 下 网 址 上 下 载 Bot Framework Emulator， 使 用 的 界面 如 图 6-5 所 示 。 


安装 Python microsoftbotframework 库 ， 上 有 具体 见 代 码 清单 6-1: 


代码 清单 6-1 安装 Bot Framework Python 接口 














pip install microsoftbotframework 





在 根 目录 下 创建 tasks.py 文 件 ， 此 实例 为 测试 逻辑 ， 返 回 Bot 接 收 的 问题 文本 作为 应 答 ， 具 体 见 代码 清单 6-2: 


代码 清单 6-2 创建 Task， 增 加 Bot 处 理 逻 辑 

















from microsoftbotframework import ReplyToActivity 
def echo response (message) : 
if message["type"] == "message": 
ReplyToActivity (fill=message, text=message["text"]) .send() 


























在 根 目 录 下 创建 main.py 文 件 ， 启 动 Bot 服 务 ， 将 tasks.py 的 处 理 逻 辑 注册 到 应 用 内 ， 具 体 见 代 码 清 单 6-3: 


代码 清单 6-3 ”创建 Bot 启 动 程序 

















from Imicrosoftbotframework import MsBot 
from tasks import * 
bot = MsBot () 


























bot.add_ process (echo response) 
if name == ' main _' 
bot. run () 





4. 启 动 Bot App 
启动 main.py 服 务 ， 具 体 见 代码 清单 6-4: 


代码 清单 6-4 启动 Bot 





python main.py 


如 果 正 确 启动 ， 则 会 看 到 控制 台 显 示 日 志 ， 如 图 6-6 所 示 。 


There was no YAML file found. 
make sure it is in the working directory and try 


* Running on http://@.0.0.0:5000/ (Press CTRL+C to quit) 


图 6-6 正确 启 动 控制 台 上 日志 


If you have a config.yaml file 


again. 


25. 连接 并 使 用 Bot 


在 模拟 器 的 顶部 输入 日 志 显 示 的 URL， 单 击 CONNECT 进 行 连接 ， 如 图 6-7 所 示 。 


CX Bot Framework Channel Emulator 


Details 


http://localhost:5000/api/messages 


Microsoft App ID: 


Microsoft App Password: Locale: 


zh-CN CONNECT 





图 6-7 Bot Ftamewotk 连 接 到 启动 的 服务 


在 输入 框 进行 测试 ， 输 入 “你 好 ”， 之 前 的 tasks.py 逻 辑 返 回 为 输入 文本 ， 如 图 6-8 所 示 。 
未 来 无 论 开发 者 拓展 Bot 为 基于 规则 ， 还 是 基于 检索 ， 或 者 是 基于 深度 学 习 的 方式 ， 都 只 需要 重 写 相 应 的 tasks.py 的 逻辑 ， 将 问答 处 理 逻 辑 集成 到 整套 框架 即 可 。 





©) Bot Framework Channel Emulator 


http://localhost:5000/api/messages 


你 好 


图 6-8 ”输入 问 句 测试 Bot 


6.5.2” 语 料 预 处 理 
实例 选用 Cornell Movie-Dialogs Corpus 数 据 集 作为 演示 ， 架 构 整 体 也 可 以 扩展 新 的 语 料 和 其 他 语言 的 语 料 。 
1.Cornell Movie-Dialogs Corpus 数 据 集 简介 
数据 集 包 含 丰 语 的 元 数据 ， 语 料 来 源 于 很 多 经 典 的 电影 对 白 。 
参考 链接 : http://www.cs.cornell.edu/~cristian/Cornell Movie-Dialogs Corpus.html 
下 面 是 数据 集 的 一 些 统计 信息 。 
- 10292 对 电影 角色 之 间 有 220579 轮 对 话 。 
* 617 部 电影 包含 9035 个 角色 。 
- 包含 了 304713 轮 对 话语 多。 
movie metadata 包 含 的 信息 具体 如 下 。 
- genres 
- release year 
- IMDB rating 
- number of IMDB votes 
- IMDB rating 
character metadata 包 含 的 信息 具体 如 下 。 
gender (for 3774 characters) 
- position on movie credits (3321 characters) 
后 续 用 到 的 较为 重要 的 两 个 文件 分 别 如 下 。 


(1) movie lines.txt 





Details 





- lineID 

- characterID (who uttered this phrase) 

- movieID 

- character name 

- text of the utterance 

movie-lines.txt 前 5 行 示 例 见 代 码 清单 6-5: 


代码 清单 6-5 movie lines.txt 前 5 行 示 例 






































































































































045 +++$+++ u0 $ mO S BIANCA +++$+++ They do not! 

044 $ u2 $ m0 $ CAMERON $ They do to! 
L985 $ u0 $ m0 $ BIANCA $ I hope so. 
L984 +++$+++ u2 $ mO $ CAMERON $ She okay? 
L925 $ u0 $ mO $ BIANCA S Let’s go. 


















































(2) movie_conversations.txt 

“ 每 轮 对 话 结构 。 

- fields 

- chatactetID 会 话 中 的 第 一 个 角色 。 
chatactetID 会 话 中 的 第 二 个 角色 。 

. movieID 会 话 来 源 电 影 。 

. 对 话 文 本 列表 ， 其 中 行 ID 对 应 movie_lines 中 的 行 ID。 
order: ['linelD1', ‘linelD2, '? ', ‘linelDN’] 
movie conversations.txt 前 5 行 示例 见 代 码 清 单 6-6: 


代码 清单 6-6 movie_conversations.txt 前 5 行 实例 











































































































U0 +++$+++ u2 S+++ mO +++$ ['L194', 'L195', 'L196', "L197"] 
u0 $ u2 $ mọ $ ['L198', 'L199"] 

U0 +++$ u2 $ m0 $+ ['L200', 'L201', 'L202', 'L203"] 
u0 $ u2 $ mọ $ ['L204', 'L205', 'L206'] 

u0 $ u2 $ m0 $ ['L207', 'L208"'] 


2. 数 据 预 处 理 
将 movie lines.txt 和 movie_ conversations.txt 文 本 中 的 句子 抽取 为 对 话 句 子 列表 。 
示例 见 代 码 清单 6-7: 


代码 清单 6-7 ”数据 预 处 理 ， 提 取 对 话 对 


Ud 


# 加 载 会 话 数据 ， 葵 换 会 话 数据 中 的 每 个 对 话 为 相应 字符 串 。 


def loadConversations (self, fileName, fields): 


























Args: 

fileName (str): SNE AE 

eI (set<str>) : 数据 每 列 的 居 
MOVIE CONVERSAT ONS F ELDS = 

["characterl ID", "character21D", "movieID", "utteranceIDs"] 

Return: 


dict<dict<str>>: 将 每 行 数据 按 列 为 key，Value 为 值 存 为 字典 ,以 备 后 续 使 用 
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conversations = [] 
with open (fileName, 'r', encoding='iso-8859-1') as f: 
for line in f: 
values = line.split(" +++S$+++ ") 
# Extract ~ 
convObj = 
F EANAIR S, 对 象 存储 为 key-value 形 式 ，key 为 每 行 
MOVIE CONVERSATIONS FIELDS 的 模式 
for i, field in enumerate (fields): 
conv0bj [field] = values [i] 
# Convert string to list (convObj ["utteranceIDs"] == "['L598485', 





































































































'L598486', http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17708/0E 








# 将 字符 串 转 换 为 列表 

lineIds = ast.literal eval (convObj ["utteranceIDs"]) 

# Reassemble lines 

# 将 会 话 数 据 key-value 对 象 妃 加 一 个 属性 1ines， 里 面 存储 这 个 对 话 里 的 所 有 数据 行 。 整 体 结构 

convGbj ["Lines"] = [] 

for lineId in linelIds: 

convObj ["lines"] .append(self.lines[linelId] ) 
# HESS Mt Bib MF) conversationsy HH 
conversations. append (convObj ) 

return conversations 








































































































3. 分 词 
将 文本 中 的 句子 和 词 进 ， 也 就 是 进入 分 词 阶 段 。 由 于 语 料 选用 的 是 英文 ， 因 此 这 里 使 用 NLTK 工 具 进 
自然 语言 工具 箱 (NLTK，Natural Language Toolkit) 是 一 个 基于 Python 语言 的 类 库 ， 它 也 是 当前 流行 的 自然 


数 可 以 大 幅度 地 提高 效率 。 如 果 扩 展 的 为 中 文 语 料 ， 则 可 以 使 用 jieba 分 词 等 工具 进行 中 文 分 词 


= 





BPS/Text/...]") 








陡 分词 。 如 果 是 中 文 语 料 ， 则 可 以 使 用 jieba 分 词 等 分 词 工具 。 


语言 编程 与 开发 工具 。 在 进行 


自然 语言 处 理 研究 和 应 用 时 ， 


恰当 地 利用 NLTK 中 提供 的 函 


NLTK 的 安装 十 分 便捷 ， 只 需要 pip 就 可 以 了 ， 具 体 见 代码 清单 6-8: 


代码 清单 6-8 ”安装 NLTK 


pip install nltk 





NLTK 中 集成 了 语 料 与 模型 等 的 包 管 理 器 ， 可 在 python 解 释 器 中 执行 ， 下 载 NLTK 语 料 的 方法 见 代 码 清单 6-9: 
代码 清单 6-9 下载 NLTK 语 料 


>>> import nltk 
>>> nltk.download () 


安装 好 后 ， 我 们 可 以 通过 代码 清单 6-10 所 示 的 代码 逻辑 进行 分 词 : 


代码 清单 6-10 ”NLTK 分 词 





# Extract sentences 
sentencesToken = nltk.sent tokenize (line) 
# We add sentence by sentence until we reach the maximum length 
for i in range(len(sentencesToken) ) : 
tokens = nltk.word tokenize (sentencesToken [i] ) 























4. 构 建 词典 与 转换 单词 


为 了 能 够 通过 数字 化 和 后 续 向 量化 表示 词 ， 我 们 可 以 创建 一 个 字典 表示 单词 。 本 例 选用 相对 比较 简单 的 方式 ， 以 遇 到 词 的 顺序 索引 作为 词 的 ID， 将 对 话 中 的 单词 最 终 转 换 为 词 的 jd， 具体 见 代 码 清单 6- 
11: 


代码 清单 6-11 ”构建 词典 


word = word.lower () 

if not create: 

wordId = self.word2id.get (word, self.unknownToken) 
# 如 果 已 经 创建 ， 则 返回 wordid 

elif word in self.word2id: 

wordId = self.word2id[word] 

self.idCount [wordId] += 1 

# 如 果 没 有 创建 ， 则 返回 新 建 worqid 


self .word2id) 
word] = wordId 


wordId] = 
[d] 































































































5. 句 子规 范 化 
由 于 问答 句子 的 长 度 不 一 定 一 致 ， 但 是 一 般 的 模型 需要 输入 长 度 一 致 的 数据 进行 训练 。 以 下 几 种 方案 可 以 处 理 这 种 问题 。 
(1) 定 长 策略 
实例 简化 处 理 。 选 用 固定 的 句子 长 度 进行 处 理 ， 具 体 见 代码 清单 6-12: 


代码 清单 6-12 ”将 句子 转换 为 固定 长 度 





for sentence in sentences: 


























f the total length is not too big, we still can add one more 
sentence 
if len (merged) len(sentence) <= self.args.maxLength: 


























if fromEnd: # Append the sentenc 
merged = sentence + merged 




















else: 
merged = merged + sentence 
else: # If the sentence is not used, neither are the words 
for w in sentence: 
self.idCount[w] -= 1 














return merged 


(2) Bucketing 策 略 


Bucketing 策 略 可 以 用 于 处 理 不 同 长 度 的 训练 样 例 ， 如 果 我 们 将 训练 样 例 的 输入 和 输出 长 度 固定 ， 那 么 在 训练 整个 网 络 的 时 候 ， 必 然 会 引入 很 多 的 PAD 辅 助 单 词 ， 而 这 些 单 词 却 包含 了 无 用 信息 。 如 果 
不 引入 PAD 辅 助 单词 ， 则 需要 训练 很 多 的 网 络 。 另 一 个 极端 是 ， 如 果 将 每 一 个 样 例 作为 一 个 神经 网 络 结构 的 话 ， 那 么 势必 会 大 大 降低 模型 的 训练 效率 。 因 为 每 一 个 样 例 的 输入 尺寸 和 输出 尺寸 一 般 来 说 是 不 
一 样 的 ， 所 以 每 一 个 样 例 定义 的 神经 网 络 结构 也 是 不 一 样 的， 因此 就 会 定义 出 非常 多 的 神经 网 络 。 所 以 ， 一 个 折 中 的 方法 就 是 ， 可 以 设置 若干 个 Buckets， 为 每 个 Buckets 指 定 一 个 输入 和 输出 长 度 ， 比 如 教 
程 中 给 出 的 例子 Buckets=[ (5，10) ， (11, 16) , (21, 25) , (40, 50) ]， 这 样 的 话 ， 经 过 Bucketing 策 略 处 理 之 后 ， 所 有 的 训练 样 例 将 被 分 成 4 份 ， 其 中 每 一 份 的 输入 序列 和 输出 序列 的 长 度 均 相 
同 。 


(3) DynamicRNN 策 略 


TensorFlow 提 供 了 dynamic_rnn 功 能 ， 可 以 让 不 同 迭 代 传 入 的 batch 是 长 度 不 同 的 数据 ， 但 同一 次 迭代 一 个 batch 内 部 的 所 有 数据 的 长 度 仍 然 是 固定 的 。 例 如 ， 第 一 时 刻 传 入 的 数据 shape= 
[batch_size，10]， 第 二 时 刻 传 入 的 数据 shape=[batch_size，20]， 第 三 时 刻 传 入 的 数据 shape=[batch_size，6] 等 。 


6. 构 建 模型 输入 数据 
将 数据 转换 为 TensorFlow 模 型 需要 的 输入 形式 ， 具 体 见 代码 清单 6-13: 
代码 清单 6-13 ”将 数据 转换 为 TensorFlow 模 型 需要 的 输入 


# sample 中 包含 问 、 答 语句 

sample = samples[i] 
# 将 问 句 放 入 到 encodersSeqs 中 ， 作 为 图 中 encoder 输 入 的 训练 数据 
batch.encoderSeqs.append (list (sample[0])) 
# 对 sample[1] 回 答 ,在 语句 头 加 入 go 符号 ， 在 句 尾 加 上 eos 终 止 符 ， 并 作为 Decoder 
# 输 入 训练 数据 

batch.decoderSeqs.append([self.goToken] + sample[1] + 
























































[self.eosToken]) # Add the <go> and <eos> tokens 

# 对 于 decoqer 输 入 ,去 掉 go 符 号 后 作为 Targets (模型 的 预测 输出 标签 ) 
batch.targetseqs .append (batch.decoderSegqs[-1] [1:]) 
# Same as decoder, but shifted to the left (ignore the <go>) 


ii 














6.5.3 ”模型 构建 


实例 通过 构建 TensorFlow 中 embedding_rnn_seq2seq 这 个 seq2seq 模 型 
整体 流程 具体 如 下 。 
1) 构建 RNN Cell， 使 用 LSTM 。 
2) 构建 神经 网 络 输入 占 位 符 。 

3) 构建 Seq2Seq 模 型 ， 其 中 的 Cell 使 用 的 是 第 1) 步 构建 的 Cell。 
4) 构建 损失 函数 Sequence Loss, 

5) 选择 优化 算法 Adam。 

构建 深度 学 习 网 络 Seq2Seq 的 方法 具体 见 代 码 清单 6-14: 
代码 清单 6-14 ”构建 深度 学 习 网 络 Seq2Seq 


def buildNetwork (self): 
"mn 构建 Seq2Seq 深 度 神 经 网 络 














行 预 测 。 


# 1) 构 建 RNN Cell: 构建 Seq2Seq 深 度 神经 网 络 中 Encoder 和 Decoder 中 的 RNN Cell， 可 以 采用 LSTM 实 现 








def create rnn cell(): 
encoDecoCel] = tf.contrib.rnn. 














BasicLSTMCel11 ( 

















self.args.hiddenSize, 
) 
return encoDecoCell 
encoDecoCell = tf.contrib.rnn.MultiRNNCell ( 


























[create rnn cell() for _ 


) 
# 2) 构 建 深度 神经 网 络 输入 占 位 符 


in range (self.args.numLayers) J, 






















































































































































































# Or GRUCell, 


LSTMCell (args.hiddenSize) 











































































































with tf.name scope ('p] aceho] der encoder"): 
self.encoderInputs = [tf.placeholder (tf.int32, [None, ]) 
for in range (self.args.maxLengthEnco) ] 
with tf.name scope ('placeholder decoder") : 
self.decoderInputs = [tf.placeholder (tf.int32, [None, ], name="'inputs') for _ in range(self.args.maxLengthDeco) ] 
self.decoderTargets [t£.placeholder (tf. int32, [None, ], name='targets') for in range (self.args.maxLengthDeco) ] 
self.decoderWeights = .placeholder (t£.float32, [None, ], name='weights') for in range(self.args.maxLengthDeco) ] 
# 3) 构 建 Seq2Sed 模 型 ,其 中 的 cell 使 的 是 第 1 ) 步 构建 的 Cell E 
# 此 处 使 用 Embedqing 模 型 ， 输入 的 句子 中 的 词 iP 会 转换 为 向 稼 表示 , 这样 就 能 更 好 地 表示 单词。 
decoderOutputs, states = tf.contrib.legacy seq2seq.embedding rnn seq2seq ( 
self.encoderInputs, # List<[batch=?, inputDim=1]>, list of size args.maxLength 
self.decoderInputs, # For training, we force the correct output (feed previous=False) 
encoDecoCell, 
self.textData.getVocabularySize(), 
self.textData.getVocabularySize(), # Both encoder and decoder have the same number of class 





embedding size=self.args.embeddingSize, 





























# Dimension of each word 
f.args.test), we use previous output as next input ( 





feed_previous) 





















































feed previous=bool (self.args.test) # When we test (sel 
) 
# For testing only 
if self.args.test: 
self.outputs = decoderOutputs 
# For training only 
else: 
# 4) 定义 损失 函数 ， 选 用 sequence 1loss 作 为 损失 函数 
self.lossFct = tf.contrib.legacy seq2seq.sequence loss ( 











decoderOutputs, 





























self.decoderTargets, 
self.decoderWeights, 
self.textData.getVocabularySize () 





) 
tf.summary.scalar('loss', 
# 5) 选 择 Adqam 优 化 算法 进行 训练 
opt = tf.train.AdamOptimizer ( 

learning rate=self.args.learningRate 











self.lossFct) 



































) 


self 























.optOp = opt.minimize (self.lossFct) 


embedding_rnn_seq2seq 模 型 的 输入 参数 说 明 具 体 如 下 。 


# Keep track of 


the cost 


- encoder_inputs: 它 是 一 个 一 维 tensor 构 成 的 列表 对 象 ， 其 中 ， 每 一 个 一 维 tensot 的 尺寸 均 为 [batch_size]， 代 表 茶 一 时 刻 的 输入 。 
- decoder inputs: 与 encoder_inputs 的 解释 类 似 。 
- cell: 它 是 一 个 rnn_cell.RNNCell 或 者 multi-layet-RNNCell 对 象 ， 其 中 定义 了 cell 涵 数 和 hidden units 的 个 数 。 


具体 指 输入 词 库 的 大 小 ， 


<- num_encoder_symbols : 


指 输出 词 库 的 大 小 。 


- num_decoder_symbols : 


- embedding size: 词 库 中 的 每 一 个 单词 “ 肉 套 ”后 向 量 的 长 度 


“ feed_previous: 





6.5.4 yil 








东 流 


也 即 输入 单词 one-hot 表 示 后 


该 参数 为 True 时 ， 用 于 模型 测试 阶段 ， 基 于 贪 焚 工法 生成 输出 序 


的 向 量 长 度 


， 单 词 转换 为 向 量 的 维度 。 


列 ; 该 参数 为 False 时 用 于 训练 模型 参数 。 


首先 通过 step 方 法 构建 模型 需要 的 输入 ， 操 作 符 和 输入 数据 ， 具 体 见 代码 清单 6-15: 


代码 清单 6-15 ”通过 step 方 法 将 输入 和 Ops 转 换 为 TensorFlow 所 需要 的 格式 








def step(self, batch): 


Ullz 


代码 清单 6-16 Yll 








Args: 


batch (Batch): 





Return: 





patch 为 输入 数据 


(ops), dict: 返回 操作 符 和 输入 数据 词典 
# 构建 模型 输入 词典 











feedDict = {} 
ops = None 











for i in 


if not self.args.test: 


feedDict [se] 


# 处 于 训练 阶段 


range (self.args.maxLengthEnco) : 














for i in 








range (self.args.maxLengt 
feedDict[self. 











feedDict [self. 



































feedDict[self. 

















ops = (self.optOp, self.lossFct) 








else: yA Famke 







































































-encoderInputs[i]] = batch.encoderSegs [i] 
thDeco) : 

decoderInputs[i]] = batch.decoderSegqs [i] 

decoderTargets[i]] = batch.targetSeqs [i] 

decoderWeights[i]] = batch.weights [i] 


for i in range (self .args.maxLengthEnco) : 
feedDict [self.encoderInputs[i]] = batch.encoderSegqs [i] 
feedDict[self.decoderInputs[0]] = [self.textData.goToken] 
ops = (self.outputs, ) 
# 返回 操作 符 和 输入 数据 
return ops, feedDict 


DES 
































Prank’ === 
self.args. 
# 获取 一 He 




















numEpochs, sel 





引 清单 6-16 所 示 ， 这 里 包含 两 层 循环 ， 


for e in range(self.args.numEpochs) : 
Epoch {}/{} ; (1 








次 输入 数据 





batches = self 























tic datetime. dat 
for nextBatch in 























_, loss, summary = 
feedDict) 
self.globStep += 1 





.textData.getBatches () 
tetime.now () 

tqdm (batches, desc="Training"): 
# 获取 step 函 数 返回 的 网 络 模型 和 输入 数据 
ops, feedDict = self.model.step (next 
sess.run(ops + 











r={}) ----- " format (etl, 
f.args.learningRate) ) 


Batch) 
(mergedSummaries,), 


self.writer.add_summary(summary, self.globStep) 








6.5.5 TERIEN 


训练 好 模型 之 


后 ， 可 以 直接 使 用 模型 


在 线 推断 包含 以 下 几 个 过 程 。 


进行 问 


1) 将 问 句 转换 为 模型 需要 的 输入 形式 。 


. 分 词 。 


. 词 转换 为 id。 


规范 化 句子 长 度 。 


创建 TensorFlow Batch。 


2) 加 载 并 运行 模型 


3) 将 


在 线 推断 的 实 


， 预 测 出 问 句 的 回答 结果 。 


结果 和 词典 匹配 转换 为 所 需要 的 回答 文本 。 


现 具体 见 代 码 清单 6-17: 


代码 清单 6-17 ”模型 在 线 推断 ， 根 据 问 句 返 


de 


将 句子 id 转换 为 对 应 的 单词 ， 之 后 














fF singlePredict 





Args: 
question 





Return: 


list <int>: 回答 的 


(self, question, questionSeq=None) : 
"uw Predict the sentence 





(str): 原始 问题 文本 
questionSeq (List<int>): 











# 1) 将 输 








batch = self. 
if not batch: 














return None 
if questionSeq is not None: 
questionSeq.extend (batch.encoderSegs) 


# 2) 运行 模型 ,根据 问 句 预测 








ops, feedDict 
output = sel 























出 回答 结果 


output argument. 
句子 ， 内 容 是 词 1q 


入 问 句 转换 为 模型 需要 的 输入 Create the input batch 
textData.sentence2enco (question) 























If given will 


一 层 为 Epochs， 一 层 为 BatchSize， 可 根据 用 户 配 置 的 Epochs 和 BatchSize 决 定 


contain the input batch sequence 


# If the caller want to have the real input 





= self.model.step (batch) 


fF.sess.run(ops[0], 





answer = sel 
return answer 








feedDict) 





f.textData.deco2sentence (output) 


代码 清单 6-18 ”将 句子 中 词 的 id 转换 为 对 应 的 单词 


sel 





f.textData.sequence2str (sel 





返回 相应 的 回答 句子 ， 具 体 见 代码 清单 6-18: 


f.singlePredict (sentence), clean=True) 








运行 代码 ， 可 以 看 到 如 图 6-9 所 示 的 对 话 结果 。 


Q: Hi 


lz 














Q: What is your name 


> Fil. 


> 









Laura. 





What does that mean ? 
I dunno. 








How old are you ? 


thirty-five. 


Will Google hire me ? 


- No. 


Tell me the alphabet 
Fuck you. 


Thatte naù nira 


~ m IIIJ Lt = IIV Ws DD dhe See Se 


A 


4: Yeah 
-_ E L ` l | eo 
图 6-9 使 用 深度 学 习 对 话 模型 的 对 话 结果 


6.6 本章 小 结 


本 章 首先 介绍 了 对 话机 器 人 产生 的 背景 和 应 用 场景 ， 之 后 介绍 了 对 话机 器 人 的 几 个 技术 流派 ， 基 于 模板 、 基 于 检索 和 基于 深度 学 习 ， 使 得 读者 首先 能 够 对 对 话机 器 人 的 支撑 技术 和 应 用 有 一 个 全 面 的 了 
解 。 由 于 本 书 的 主题 是 深度 学 习 ， 因 此 接 下 来 选用 深度 学 习 的 方法 构建 对 话机 器 人 ， 首 先 通 过 Bot Famework 构 建 对 话机 器 人 的 界面 ， 之 后 进行 语 料 数据 的 预 处 理 ， 表 构建 Seq2Seq 的 深度 学 习 ， 然 后 使 用 
对 话语 料 数据 进行 模型 的 训练 ， 最 终 通 过 深度 学 习 模型 完成 对 话 。 


第 7/ 章 ”人 脸 识 别 器 


本 章 将 讲解 人 脸 识别 器 的 相关 应 用 。 总 体 来 说 ， 相 比 于 语音 识别 任务 ， 人 脸 识 别 任务 简化 了 数据 预 处 理 ， 并 且 不 需要 预先 进行 变换 即 可 获得 结果 ， 因 此 理解 起 来 可 能 更 加 简单 。 但 是 ， 实 际 上 由 于 用 于 
人 脸 识 别 的 仪器 在 精度 上 要 求 较 高 ， 因 此 可 能 需要 的 自由 参数 会 更 多 ， 这 表现 为 在 深度 上 更 深 。 当 然 人 脸 识 别 网 络 结构 也 是 可 以 用 于 语音 识别 的 。 


所 以 说 ， 在 深度 神经 网 络 之 上 ， 我 们 需要 了 解 的 是 ， 相 同 的 网 络 结构 可 能 适用 于 不 同 的 任务 ， 而 相同 的 任务 也 可 以 用 不 同 的 网 络 结构 来 完成 。 


nl {EBD 


人 脸 识别 ， 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 生物 识别 技术 。 人 们 每 天 上 传 到 社交 网 络 上 的 图 片 数 以 干 万 量 级 ， 同 时 每 天 产生 的 视频 数据 中 也 包含 了 海量 的 人 脸 信 息 ， 那 么 ， 如 何 将 这 些 照 
片 与 视频 中 的 人 脸 进行 提取 与 分 析 成 为 机 器 学 习 算 法 历史 上 的 一 个 十 分 具有 挑战 性 的 课题 。 每 个 人 都 有 着 基本 相同 的 面部 轮廓 、 眉 毛 、 眼 睛 和 嘴 等 ， 这 些 特 征 基本 相似 ， 而 就 是 这 些 相似 的 特征 却 可 以 区 分 
地 球 上 将 近 七 十 亿 人 。 即 使 是 双胞胎 ， 其 脸 部 也 存在 着 细微 的 差别 。 借 用 一 句 话 “ 地 球 上 没有 两 片 完全 相同 的 雪花 ”， 而 人 脸 也 是 如 此 ，“ 世 界 上 没有 两 个 完全 相同 的 人 脸 ”。 如 何 借助 于 人 脸 上 的 细微 差 
别 进行 身份 识别 ， 是 人 脸 识别 的 主要 任务 之 一 。 


就 目前 的 研究 与 应 用 现状 来 看 ， 人 脸 识别 是 一 个 传感器 、 计 算 视 党 、 计 算 机 图 形 学 等 的 交叉 学 科 。 正 如 前 文 所 描述 的 ， 人 脸 识别 的 任务 并 不 容易 ， 从 模式 识别 到 深度 神经 网 络 ， 我 们 如 今 所 获得 的 这 个 
成 果 也 经 历 了 将 近 五 十 年 的 时 间 。 在 20 世 纪 60 年 代 ， 人 脸 识别 作为 一 项 研究 内 容 就 已 经 进入 了 一 部 分 人 的 视野 。 彼 时 人 脸 识 别 任务 主要 集中 在 人 脸 检测 (Detection) 任务 上 ， 研 究 方法 为 利用 人 的 面部 曲 
线 结构 特征 进行 分 析 借以 检测 图 片 中 人 脸 的 位 置 ， 但 是 这 个 阶段 的 重要 成 果 并 不 多 。 这 是 有 历史 原因 的 : 当时 受 硬 件 条 件 的 限制 ， 很 多 算法 还 不 成 熟 ， 因 此 很 难 满足 需要 。 在 20 世 纪 90 年 代 ， 人 脸 识 别 技术 
进入 了 一 个 爆发 期 ， 这 个 爆发 期 与 机 器 学 习 历 史上 机 器 学 习 技 术 的 爆发 期 相 吻 合 ， 当 时 一 些 机 器 学 习 算 法 被 用 于 人 脸 识 别 任 务 之 中 ， 取 得 了 相对 不 错 的 效果 。 美 国 军 方 组 织 了 著名 的 FERET 人 脸 识 别 算 法 测 
试 ， 同 时 一 些 诸如 Visionics 的 Facelt 等 商用 系统 开始 出 现 。 研 究 上 ，Atick 等 提出 的 局 部 特征 分 析 技术 (LFA) 被 用 于 Facelt 系 统 。 和 柔性 模型 的 提出 使 得 人 脸 识别 技术 可 以 更 好 地 对 人 脸 特 征 进 行 提取 与 分 
析 。 在 此 阶段 出 现 了 很 多 用 于 二 维 人 脸 识 别 的 算法 。 但 是 这 个 阶段 受 限 于 模型 参数 数量 ， 使 得 人 脸 识 别 中 受到 光照 、 姿 态 、 位 置 等 干扰 信息 的 影响 很 大 。 对 这 些 问 题 的 深入 研究 使 得 人 脸 识别 技术 进入 了 全 
新 的 时 期 。 进 入 21 世 纪 后 ， 由 于 神经 网 络 算法 的 发 展 ， 人 脸 识别 进入 了 新 的 发 展 阶段 ， 用 于 人 脸 识 别 的 深度 神经 网 络 开始 出 现 ， 并 取得 了 相当 不 错 的 效果 。 


现 阶段 生物 识别 技术 依托 于 硬件 条 件 的 提升 得 到 了 一 个 爆发 式 的 发 展 ， 并 衍生 出 了 适合 于 商业 应 用 的 人 脸 、 指 纹 、 声 纹 、 虹 膜 等 生物 识别 技术 。 随 着 手机 等 智能 化 设备 以 及 金融 、 安 全 领域 需求 的 不 断 
提高 ， 生 物 识 别 技术 越 来 越 受 到 了 各 个 行业 与 企业 的 重视 。 每 种 生物 识别 技术 都 不 是 孤立 的 ， 而 是 一 个 相辅相成 、 互 相 补充 的 关系 。 从 用 户 体验 、 企 业 成 本 、 安 全 标准 各 个 维度 而 言 ， 每 种 识别 技术 并 没有 
优 务 之 分 。 表 7-1 所 示 为 各 种 生物 识别 算法 的 比较 。 


表 7-1 各 种 生物 识别 算法 比较 
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* 修 改 自 《基于 小 波 域 人 脸 识 别 的 研究 》。 


人 脸 识 别 项 目 对 于 企业 应 用 有 着 极为 重要 的 意义 ， 作 为 信息 时 代 的 基础 技术 之 一 ， 人 脸 识别 有 着 广泛 的 应 用 场景 ， 同 时 相 比 于 其 他 方法 (如 虹膜 ) 具有 以 下 优点 。 


` 无 侵犯 性 ， 不 必 与 人 体 发 生 直接 接触 就 可 以 对 人 脸 进 行 识别 ， 这 是 相 较 于 其 他 生物 识别 的 一 个 优势 。 

` 成 本 低 ， 传 感 器 简单 。 一 般 适 用 于 对 安全 需求 不 是 很 高 的 领域 ， 用 摄像 头等 设备 即 可 完成 数据 的 采集 与 分 辨 。 

` 被 动 识别 。 不 需要 被 检测 人 与 人 脸 识 别 系统 发 生 主动 交互 即 可 识别 。 这 是 其 在 安全 刑侦 领域 的 优势 之 一 。 

近年 来 ， 国 内 出 现 了 很 多 与 人 脸 识 别 相关 的 企业 与 研究 ， 也 形成 了 比较 成 熟 的 、 有 效 的 识别 系统 ， 人 脸 识别 技术 正 迎 来 其 爆发 期 。 目 前 而 言 ， 人 脸 识别 已 经 广泛 应 用 于 信息 安全 、 电 子 商务 、 基 础 设 
施 、 政 府 、 军 队 、 银 行 等 相关 领域 。 


一 些 典 型 的 应 用 场景 具体 如 下 。 

公司 考勤 系统 、 门 禁 系 统 等 是 最 常见 的 应 用 场景 。 

电子 护照 、 身 份 证 等 是 正在 逐渐 兴起 的 应 用 领域 ， 目 前 一 些 火车 站 已 经 支持 人 脸 识别 进行 入 站 检查 。 
电子 商务 、 信 息 安 全 领域 现 已 支持 利用 人 脸 识别 技术 进行 身份 校 验 。 

公安、 刑侦 和 司法 领域 现 已 可 以 借助 人 脸 识 别 系统 进行 逃犯 的 搜捕 。 


. 银行 、 金 融 领 域 也 可 以 引入 人 脸 识 别 系 统 进行 用 户 身份 校 验 ， 以 防止 资 刷 等 行为 。 


7.2 Detection, AlimentSldentify 


由 人 脸 识别 技术 的 发 展 历史 可 以 看 到 ， 目 前 来 讲 ， 人 脸 识 别 项 目 主要 包含 如 下 三 个 部 分 。 
- ARM] (Detection) 
- ARIT FH (Aliment) 


- 人 脸 识 别 (Identify) 


定 一 张 图 片 或 一 段 视频 ， 标 注 其 中 所 有 的 人 脸 。 这 里 标注 指 的 是 标注 人 脸 的 位 置 和 范围 ， 人 脸 识别 发 展 历 史上 最 初 的 任务 就 在 于 此 。 人 脸 检测 项 目 虽 然 简 单 ， 但 其 却 是 所 有 人 脸 
人 脸 识别 提供 了 相应 的 基础 ， 如 图 7-1 所 示 。 


所 谓 人 脸 检 测 ， 就 是 给 
影像 分 析 的 基础 ， 比 如 入 脸 跟 踪 、 相 机 优化 、 个 人 相册 管理 、 人 机 交互 、 社 交 平 台 应 用 等 。 同 时 ， 人 脸 识别 也 为 后 续 的 人 脸 对 齐 、 
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图 7-1 人 脸 检测 任务 


如 图 7-1 所 示 ， 和 矩形 框 即 为 机 器 所 识别 的 人 脸 位 置 。 目 前 很 多 算法 都 可 以 完成 这 个 任务 ， 比 如 进行 坐标 变换 之 后 利用 支持 向 量 机 (SVM) 等 方式 进行 识别 。 这 是 人 脸 识 别 历史 上 比较 有 效 的 一 种 方式 ， 
因此 该 方式 在 早期 任务 中 取得 了 一 定 的 成 果 ， 但 这 种 识别 方式 容易 受 光 照 条 件 的 干扰 。 目 前 完成 人 脸 检 测 任务 比较 好 的 方式 是 利用 多 层 卷 积 神经 网 络 (CNN) 去 完成 。 本 节 将 会 对 用 于 人 脸 检测 的 MTCNN 
结构 进行 讲解 与 演示 。 


人 脸 对 齐 是 根据 输入 的 人 脸 图 像 自动 定位 出 面部 的 关键 特征 点 ， 例 如 双眼 、 鼻 子 、 嘴 角 等 ， 如 图 7-2 所 示 。 
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图 7-2 ”人 脸 特征 点 识别 


这 项 技术 属于 人 脸 检 测 技术 的 延伸 ， 相 比 于 人 脸 检 测 ， 人 脸 特 征 点 识别 可 以 更 精确 地 定位 和 分 析 人 脸 图 形 。 人 脸 特 征 点 识别 需要 大 量 的 标注 数据 ， 技 术 本 身 可 以 用 于 表情 识别 、 情 绪 识 别 和 年 龄 识别 ， 
同时 为 后 续 的 人 脸 识别 提供 数据 基础 。 


人 脸 识 别 技术 是 人 脸 识 别 工程 中 应 用 场景 最 为 广泛 的 技术 ， 前 文 提 到 的 安全 、 金 融 、 刑 侦 等 技术 均 是 以 人 脸 检 测 为 基础 的 。 目 前 来 说 ， 深 度 神 经 网 络 在 人 脸 识别 任务 中 表现 出 了 强大 的 性 能 ， 从 Google 
的 FaceNet 到 ResNet， 人 脸 识 别 的 准确 率 在 近 几 年 逐年 都 在 攀升 。 在 国际 权威 的 人 脸 识 别 数据 库 LFW 上 ， 人 脸 识 别 的 准确 率 达 到 了 99% 以 上 ， 具体 如 表 7-2 所 示 。 


表 7-2 无 限制 条 件 下 人 脸 验 证 测试 准确 率 与 方差 


LFW2017 年 11 月 的 数据 


RemarkFace 0.9965 + 0.0032 
yunshitu YouTu Lab, Tencent 0.9980 + 0.0023 
Easen Electron 0.9920 + 0.0030 
icarevision 0.9938 + 0.0027 
Glasssix THU CV-AI Lab 0.9973 + 0.0008 
sensingtech 0.9895 + 0.0020 
ReadSense CNN-3DMM estimation 0.9235 + 0.0129 
Force Infosystems 0.9630 + 0.0023 
Deepmark 0.9978 + 0.0007 
VisionLabs V2.0 0.9968 + 0.0009 
Turing 23 9.9940 £ 0.0022 


PingAn AI Lab 0.9980 + 0.0016 poset+shape+expression augmentation 0.9807 + 0.0060 


Yuntu WiseSight 0.9943 + 0.0045 0.9955 + 0.0014 


LFW 是 由 马萨诸塞 大 学 (University of Massachusetts) 计算 机 视觉 实验 室 维护 的 一 套 公开 的 数据 库 ， 建 立 的 初 表 是 用 于 研究 非 受 限 情形 下 的 人 脸 识 别 问题 ， 是 目前 最 为 权威 、 热 门 的 评价 人 脸 识别 性 
能 的 基准 参照 之 一 。 











7.3 ”数据 特征 分 析 


人 脸 识 别 任务 中 的 数据 包含 三 个 维度 ， 第 一 个 维度 是 标注 了 人 脸 位 置 和 范围 的 数据 ， 第 二 个 维度 是 标注 了 人 脸 特征 点 的 数据 ， 第 三 个 维度 是 标注 了 不 同 个 体 的 人 脸 数 据 。 在 这 三 个 维度 中 ， 前 两 个 维度 
的 数据 可 用 于 训练 人 脸 检测 任务 ， 第 三 个 维度 则 用 于 人 脸 检测 任务 。 


7.3.1 人 脸 位 置 和 范围 数据 


关于 人 脸 位 置 和 范围 数据 的 数据 库 比 较 著名 的 是 WIDER FACE 数 据 集 ， 本 书 中 的 数据 部 分 就 取 自 于 此 。 数 据 集中 包含 了 32，202 张 图 片 ， 其 中 标注 了 人 脸 393，703 个 。 数 据 集中 的 人 上 脸 数据 范围 、 姿 
势 、 干 扰 、 表 情 、 装 扮 、 光 照 均 有 不 同 。 大 量 的 数据 对 增强 识别 器 的 泛 化 能 力 是 十 分 有 必要 的 。 在 一 些 传统 的 识别 算法 之 中 ， 如 前 文 所 说 的 光照 条 件 等 会 在 很 大 程度 上 影响 识别 结果 ， 同 时 随 着 人 脸 姿势 的 
不 同 ， 也 会 造成 漏 报 误 报 的 情况 出 现 ， 因 此 多 种 条 件 下 的 人 脸 识别 数据 是 很 有 必要 的 ， 如 图 7-3 所 示 。 


Scale Occlusion Expression Makeup Illumination 


a = ee aaa 























图 7-3 人 脸 范 围 数 据 集 


如 图 7-3 所 示 ， 人 脸 识别 数据 集中 包含 了 大 量 不 同 尺 寸 、 姿 势 、 表 情 、 光 照 条 件 下 的 人 脸 数据 。 在 传统 的 识别 算法 之 中 ， 消 除 光 照 条 件 影响 部 分 依赖 于 数据 预 处 理 的 工作 ， 而 在 神经 网 络 之 中 ， 也 会 在 一 
定 程 度 上 削弱 了 数据 预 处 理 的 过 程 ， 其 将 预 处 理工 作 部 分 区 于 神经 网 络 自 适应 地 进行 处 理 ， 这 样 做 带 来 的 好 处 是 能 够 更 加 有 针对 性 地 对 数据 进行 处 理 ， 同 时 还 可 以 获得 更 加 准确 、 有 效 的 结果 。 但 是 需要 向 
神经 网 络 提供 大 量 的 数据 以 使 得 自 适应 调整 神经 网 络 权 值 的 过 程 得 以 实现 ， 这 也 就 是 我 们 所 说 的 通过 大 量 数 据 增强 神经 网 络 的 泛 化 能 力 ， 所 以 说 数据 集 的 完备 性 是 很 重要 的 。 


给 定数 据 是 以 “图 片 + 描述 ” 形 式 给 定 的 ， 描 述 文 件 中 包含 了 对 应 的 图 片 信息 以 及 人 脸 框 的 位 置 ， 具 体 数据 形式 如 图 7-4 所 示 。 


@--Parade/@_Parade_marchingband_1_ 849 448.51 329.63 570.09 478.23 

®--Parade/@ Parade Parade G 904 360.92 97.92 623.91 436.46 

§--Parade/@_Parade_marchingband_1_799 78.46 221.38 85.23 2270.69 78.46 237.76 92.33 255.18 112.98 212.27 123.95 226.79 133.95 260.02 148.47 274.86 163.31 258.34 177.18 267.12 268.73 21 
6--Parade/@ Parade_marchingband_1_117 68.94 359.36 118.61 3904.96 226.63 382.12 282.51 425.58 295.62 384.89 339.45 330.47 353.29 279.93 393.35 315.79 884.62 377.15 947.26 418.13 818.78 
@--Parade/@_Parade_marchingband_1_778 27.02 226.14 59.58 262.28 62.75 94.71 79.03 113.37 63.55 62.55 80.22 86.81 87.77 13.31 104.65 28.48 230.72 1.40 243.42 14.10 262.88 121.71 277.18 
®--Parade/@ Parade _Parade_§ 343 133.78 580.32 146.24 693.86 54.70 581.40 68.12 591.15 167.78 566.53 121.86 675.44 134.86 539.65 139.74 646.74 1004.63 554.07 1019.42 576.52 988.76 592. 
@--Parade/@ Parade_marchingband_1_205 59.60 56.00 78.29 74.94 39.41 1.66 56.60 22.68 96.26 18.61 106.71 41.84 144.16 15.87 161.85 37.30 117.68 30.32 132.38 47.02 201.93 16.36 221.37 J 
@--Parade/@ Parade Parade _@ 106 8.98 260.04 26.68 2783.45 60.97 247.87 84.75 276.44 56.36 314.98 82.17 346.69 91.39 318.30 113.78 347.61 128.15 282.99 147.07 316.64 138.59 313.87 167.1 
6--Parade/@ Parade Parade © 476 565.77 158.49 587.60 175.03 663.03 118.13 687.50 146.58 743.08 124.09 766.98 151.21 831.08 153.86 854.23 173.71 573.05 352.34 597.53 371.53 875.40 378.) 
8--Parade/@_Parade_marchingband_1 12 575.00 158.00 623.00 215.00 355.00 154.00 403.00 215.00 108.00 167.00 153.00 224.00 494.00 192.00 523.00 227.00 873.00 138.00 925.00 192.00 637.00 
@--Parade/@_Parade_marchingband_1_273 177.55 238.00 232.27 311.18 248.18 235.45 306.73 308.00 362.73 156.55 421.27 229.73 467.73 153.36 521.18 225.27 628.73 110.00 684.73 191.00 745.0 
@--Parade/@_Parade_marchingband_1_928 26.79 437.21 43.83 457.30 92.53 437.21 117.49 463.99 149.75 429.98 167.41 447.56 253.24 395.26 275.77 428.68 300.12 384.85 318.99 412.86 335.43 2 
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a) 标注 文件 数据 


Central Lyon M5 Band 
Emily Bisbee, Direrctor 
Rock Rapids, Iowa 
Sketch #38 
Sample Sketch 





b) HF XFA: O Parade marchingband_1 799 c) 文件 名 0 Parade marchingband 1 849 
图 7-4 ”描述 文本 示意 图 


由 图 7-4 可 以 看 到 ， 标 注 文 件 中 存在 多 个 人 脸 信息 时 ， 会 标注 图 片 中 所 有 的 人 脸 位 置信 息 ， 位 置信 息 的 表示 方式 为 : 


face box (Xmin, Vmin, Xmax, Vmax) ( 7.1 ) 


整个 训练 数据 库 均 为 手动 标记 ， 因 此 标注 的 人 脸 范围 可 能 会 出 现 波 动 ， 这 是 不 可 避免 的 。 在 生成 训练 数据 的 过 程 中 还 需要 对 人 脸 数 据 进 行 更 进一步 的 处 理 。 


73.2 人 脸 关 键 点 数据 


人 脸 关 键 点 数据 利用 LFW 中 的 部 分 数据 进行 标注 ， 其 包含 了 13，466 张 图 形 数据 。 数 据 中 包含 了 五 个 人 脸 天 键 点 位 置信 息 : 右 眼 、 左 眼 、 鼻 头 、 左 嘴角 、 右 嘴角 。 与 7.3.1 节 一 样 ， 数 据 中 依然 包含 了 不 
同 姿势 的 人 脸 信息 ， 但 是 光照 条 件 等 变化 并 没有 7.3.1 节 中 那么 剧烈 ， 这 也 是 由 数据 目标 所 决定 的 ， 本 节 中 数据 的 主要 目的 在 于 让 机 器 自动 学 习 人 脸 关键 点 的 特征 ， 使 得 识别 器 形成 对 于 关键 点 的 感知 。 





图 7-5 人 脸 关键 点 位 置信 息 


如 图 7-5 所 示 ， 人 脸 关 键 点 数据 集中 包含 了 人 脸 关 键 点 的 数据 ， 公 开 数 据 集中 天 键 点 的 信息 可 能 会 比较 少 ， 在 一 些 企业 之 中 关键 点 可 能 会 更 加 密集 ， 这 样 可 以 获得 更 高 的 精度 。 数 据 中 并 未 包含 所 有 的 天 
键 点 ， 关 键 点 会 随 着 人 的 姿势 不 同 而 产生 变化 。 


人 脸 天 键 点 数据 集 主要 用 于 人 脸 辅助 校正 ， 以 对 不 同 角度 的 人 脸 信息 进行 修正 。 同 时 ， 还 可 以 帮助 完成 人 脸 表情 识别 等 任务 ， 人 脸 关键 点 数据 集 与 人 脸 位 置 数据 集 类 似 ， 也 是 通过 文本 来 保存 图 片 的 信 
息 ， 而 并 非 直接 在 图 片 文件 中 进行 标注 ， 如 图 7-6 所 示 。 


标注 数据 中 同样 包含 了 人 脸 位 置 (box) 信息 ， 后 续 十 个 数值 分 别 为 五 个 天 键 点 在 图 形 二 维 平面 上 的 位 置信 息 。 由 图 7-6 可 以 看 到 本 训练 集 相 比 于 前 面 用 于 人 脸 检测 的 数据 集 图 像 质量 更 高 ， 人 脸 信息 更 
加 明确 。 


1fw_5590\Aaron_Eckhart_0001.jpg 84 161 92 169 106.250000 107.750000 146.750000 112.250000 125.250000 142.750000 105.250000 157.750000 139.750000 161.750000 
1fw_5590\Aaron_Guiel @@@1.jpg 85 172 93 181 100.250000 111.250000 145.750000 116.750000 124.250000 136.750000 92.750000 159.750000 138.750000 163.750000 
1fw_5590\Aaron_Peirsol_@001.jpg 88 173 94 179 106.750000 113.250000 146.750000 113.250000 129.250000 139.750000 108.256000 153.250000 146.750009 152.750000 
lfw_5590\Aaron_Pena_6001.jpg 67 176 83 192 101.750000 116.750000 145.250000 103.750000 125.250000 136.750000 119.7500090 163.750000 146.250009 155.750000 
lfw_5590\Aaron_Sorkin_@601.jpg 73 164 86 178 101.250000 112.250000 143.750900 111.750000 129.750000 137.750000 99.250000 155.25000Ə 142.250000 154.750000 
1fw_5S9@\Aaron_Tippin_@@01.jpg 77 165 90 177 103.750000 111.750000 141.750000 111.250000 129.250000 133.750009 110.750000 156.250000 134.750000 155.250000 
lfw_5598\Abba_Eban_6081. jpg 88 164 90 175 105.7500908 113.750000 145.750000 110.250000 133.756000 136.2750000 187.750009 156.2750000 148.7500080 155.250000 
lfw_5590\Abdel_Aziz_Al-Hakim_90@1.jpg 86 169 98 173 110.750000 110.2500090 148.250000 113.750000 136.750990 133.250000 111.750099 152.250009 141.750009 154.250000 
lfw_5598vAbdel_ Nasser Assidi Beel.jpg 8Ə 167 87 174 103.756009 112.250000 148.250000 115.250000 124.250000 134.250000 106.750000 155.750009 136.250000 159.250000 
1fw_SS9@\Abdulaziz_Kamilov_@@01.jpg 76 162 90 177 108.250060 110.250000 146.7500096 116.256000 128.756009 137.750000 104.250690 152.750000 133.256666 158.250008 
1fw_5S9@\Abdullah_@6@1.jpg 8@ 163 92 175 106.250000 112.750000 148.250000 113.250000 126.750000 132.250000 119.250000 155.250000 137.750009 155.750000 
1fw_5590\Abdullah_al-attiyah_6001.jpg 72 154 90 182 98.750000 112.750000 138.250000 106.750000 112.750000 132.750000 111.756000 158.250000 146.250806 151.750000 
lfw_5590\Abdullah_Gul_6001.jpg 80 166 90 176 107.750000 109.750000 146.250000 116.250000 118.2750000 133.250009 108.750600 155.750089 136.750600 161.250008 
lfw_SS9@\Abdullatif_Sener_@@@1.jpg 89 182 87 180 104.750090 117.750000 147.250009 114.750000 1270.250000 139.7506009 115.250000 164.250000 142.750009 163.250009 


a) 标注 文件 数据 


图 7-6 ”描述 文本 示意 图 
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b) 图 片 文 件 名 : Aaron Eckhart 0001 c) 文件 名 Aaron Guiel 0001 


图 7-6 ($) 


人 脸 识别 数据 库 与 前 面 的 数据 库 有 部 分 内 容重 晋 ， 数 据 的 主要 目标 在 于 识别 不 同 的 人 脸 ， 因 此 图 像 质量 是 最 高 的 ， 主 要 的 开源 数据 集 有 CASIA-WebFace 与 MS-Celeb-1M ， 后 者 图 像 更 多 ， 更 容易 获得 
高 质量 的 结果 。 相 比较 来 说 ，MS-Celeb-1M 数 据 集 更 能 获得 更 好 的 结果 ， 因 为 数据 集 更 加 丰富 ; 但 CASIA-WebFace 数 据 集 比 较 小 ， 更 加 适用 于 练习 。CASIA-WebFace 共 有 494，414 张 图 片 ， 其 中 含有 
10，575 个 不 同 的 人 脸 。 这 个 量 级 的 数据 对 于 训练 来 说 是 很 有 必要 的 ， 人 脸 识 别 任务 为 深度 神经 网 络 ， 网 络 自 由 参数 数量 会 达到 百 万 量 级 ， 这 需要 与 之 相 匹 配 的 训练 集 。 表 7-3 所 示 为 一 些 主流 的 人 脸 识 别 数 
据 集 的 信息 。 


表 7-3 主流 的 人 脸 识 别 数据 集 对 比 


数据 集 图 形 数据 量 可 用 性 


i 
S 





LFW 5,749 公开 
CelebFaces 10,177 私有 
CACD 163.446 公开 (部 分 ) 


CASIA-WebFace 10.3573 494,414 从 开 
MS-Celeb-1M 100,000 10,000,000 公开 


由 表 7-3 可 以 看 到 ，MS-Celeb-1M 在 数据 量 上 是 有 绝对 优势 的 ， 因 此 用 其 做 训练 效果 会 更 好 。 其 数据 组 织 形式 与 前 面 的 组 织 形式 有 所 不 同 ， 其 并 没有 用 文本 对 数据 进行 注释 ， 而 是 用 文件 夹 组 织 的 形式 
来 标注 不 同 的 数据 ， 如 图 7-7 所 示 。 





图 7-7”MS-Celeb-1M 数 据 集 一 一 史 蒂 夫 乔布斯 图 形 


由 图 7-7 可 以 看 到 ， 数 据 集中 包含 了 不 同时 期 的 名 人 数据 ， 这 使 得 神经 网 络 在 训练 过 程 中 可 以 有 效 地 增强 神经 网 络 的 泛 化 能 力 ， 同 时 还 可 以 对 不 同时 期 的 人 脸 进行 识别 ， 从 而 在 数据 集 上 避免 因为 年 龄 问 
题 所 造成 的 人 脸 改 变 问题 。 这 样 做 对 训练 是 有 利 的 。 


7.4 haar 分 类 器 方式 


人 脸 识别 任务 是 针对 人 脸 检 测 而 言 的 。 人 上 脸 检测 属于 计算 机 视觉 的 范畴 ， 这 是 机 器 学 习 发 展 早期 的 主要 研究 方向 。 早 期 这 些 方法 是 根据 固定 的 特征 而 言 的 ， 根 据 眼 睛 、 眉 毛 、 嘴 、 鼻 子 等 器 官 的 相对 位 
置 特征 和 几何 关系 进行 人 脸 检测 。 这 种 方法 的 一 个 优势 就 是 速度 快 ， 可 以 快速 地 进行 人 脸 的 检测 。 再 通过 haar-like 小 波 提取 图 形 中 的 人 脸 信息 特征 ， 后 续 加 入 adaboost 等 分 类 器 进行 具体 人 脸 的 判别 。 


7.4.1 固定 特征 的 提取 


固定 特征 提取 过 程 中 最 重要 的 是 通过 haar-like 小 波 进行 特征 的 提取 。 在 给 定 有 限 数 据 的 情况 下 ， 对 简单 的 特征 区 域 进行 特征 提取 比 基 于 单个 像素 的 方法 (比如 神经 网 络 方法 ) 要 快 很 多 。 但 是 通常 来 
说 ， 效 率 和 速度 二 者 不 可 兼 得 。 图 7-8 展 示 的 是 haarlike 小 波 。 





图 7-8 #2 EAA AR EW EL ie 


矩形 特征 对 一 些 常规 的 图 形 结构 (比如 边缘 、 线 段 ) 比较 敏感 ， 但 是 其 能 描述 的 特征 有 限 ， 这 是 比较 粗略 的 描述 方式 。 对 于 24x 24k, SAARI SIASI1.6x 105, FeLi 
ie 


利用 haar-like 进 行 处 理 的 过 程 就 是 一 个 进行 模板 匹配 的 过 程 ， 而 haar 小 波 的 模板 均 为 一 些 简单 的 矩形 ， 表 7-4 列 出 了 一 些 简单 的 模板 。 
表 7-4 特征 模板 


类 型 


BRI 


= FE 


PU“ I 





特征 模板 可 以 以 任意 尺寸 、 任 意 位 置 放置 ， 每 做 一 次 相关 操作 都 称 为 一 个 特征 。 以 mx m 分 辩 率 的 图 片 为 例 ， 如 图 7-9 所 示 。 


m 


IP 





图 7-9 ”haar-like 模 板 计算 演示 


矩形 长 度 并 非 固定 ， 通 常情 况 下 其 选取 的 大 小 也 并 不 固定 ， 同 时 每 种 模板 在 选取 过 程 中 也 是 不 断 地 在 图 形 二 维 平面 上 以 一 定 步 长 移动 的 ， 通 常 来 说 ， 移 动 步 长 选择 为 1， 这 就 使 得 整个 模板 匹配 过 程 所 得 
到 的 特征 十 分 多 。 以 24x 24 的 图 形 为 例 ， 其 特征 总 量 会 达到 100，000 量 级 。 而 模板 的 计算 需要 将 黑色 区 域 像素 值 之 和 减 去 白色 区 域 像 素 值 之 和 ， 这 就 产生 了 计算 效率 的 问题 ， 如 果 对 每 一 个 模板 都 单独 计算 
一 次 积分 的 话 ， 显 然 会 极 大 地 降低 计算 效率 ， 因 此 为 了 提高 计算 效率 采取 了 积分 图 的 方式 ， 这 是 以 牺牲 空间 复杂 度 提升 来 换取 时 间 复 杂 度 减少 的 算法 。 


假设 图 片 为 灰 度 图 片 ， 那 么 可 以 将 灰 度 值 写成 关于 图 形 位置 的 函数 : 

g; =image pixel; ; (7.2 ) 
那么 ， 计 算 haar 特 征 的 过 程 可 以 用 公式 描述 为 : 

feature = Wwhite2ij e 白色 覆盖 像素 Zy 十 Wblack2ij e 黑色 覆盖 像素 Qi (7.3 ) 


其 中 ，w 为 设 定 权 值 ， 这 是 因为 在 很 多 haar 模 板 之 中 ， 黑 白 区 域 的 面积 并 不 相等 ， 加 入 权 值 之 后 使 得 特征 在 灰 度 分 布 均匀 的 位 置 其 均值 为 0。 


记录 积分 图 为 : 


F(i, 7) = Dont ag (7.4) 


存储 积分 图 后 可 以 直接 对 有 需求 的 特征 进行 计算 ， 如 图 7-10 所 示 。 





图 7-10 ”haar-like 特 征 计算 演示 


对 于 计算 算 形 内 的 积分 可 以 直接 用 积分 结果 进行 计算 : 


F(X4, y4) 十 上 (cu y1) — F2, y2) — F3, ys) (7.5 ) 


可 以 看 到 ， 通 过 存储 积分 结果 ， 积 分 计算 只 需要 进行 四 次 寻 址 以 及 三 次 加 法 运算 即 可 ， 这 样 做 大 大 加 快 了 特征 计算 的 速度 。 


7.4.2 “分 类 器 


前 面 通过 haar-like 小 波 所 提取 的 特征 可 以 看 作 是 一 系列 简单 的 分 类 器 ， 将 这 些 分 类 器 特征 进行 有 效 的 组 合 与 分 析 可 以 获得 实用 级 的 人 脸 识别 效果 。 这 种 思想 与 集成 学 习 中 的 boosting 方 法 类 似 ， 将 一 系 
列 高 偏差 、 低 方差 分 类 器 进行 组 合 以 获取 一 个 强 分 类 器 。 这 里 所 谓 的 高 偏差 指 的 是 模型 容易 欠 拟 合 ， 高 方差 指 的 是 模型 容易 过 拟 合 ， 这 两 种 都 不 是 理想 情况 ， 都 需要 进行 调整 与 优化 。 本 文 将 以 OpenCV 的 
人 脸 检测 所 用 的 方案 来 进行 说 明 ，OpenCV 所 用 的 分 类 器 为 Adaboost。 其 选择 的 弱 分 类 器 (高 偏差 分 类 器 ) 为 决策 树 ， 将 前 文 所 得 的 haar 特 征 值 作为 输入 ， 形 成 一 个 决策 树 ， 决 策 树 的 深度 为 2， 形 成 一 个 
子 分 类 器 需要 用 到 两 个 haar 特 征 值 。 而 整个 haar 分 类 器 就 是 这 些 决策 树 的 集合 ， 如 图 7-11 所 示 。 





featu 





teature3 





图 7-11 Adaboost 子 分 类 器 演示 


用 haar 特 征 形成 深度 为 2 的 决策 树 进 而 进行 分 类 ， 是 Adaboost 的 基本 原理 ，OpenCV 中 有 预 训练 的 模型 ， 可 以 直接 用 于 人 脸 识 别 ， 如 图 7-12 所 示 。 


<right_val>1.1760339736938477</right val></_></_> 


<feature> 
<rects> 
< >3 5419 -1.</ > 
《< 55 5 2 19 2.</_></rects> 
<tilted>@</tilted></feature> 
<threshold>®.0150140002369881</threshold> 
<left_val>-0.7794569730758667</left val> 
<right val>1.2608419656753546</right val></ ></ > 
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OpenCV 对 于 Adaboost 所 形成 的 强 分 类 器 可 采用 级 联 的 方式 进行 ， 用 以 增强 识别 效果 。 强 分 类 器 依然 采用 树 状 结构 。 


7.4.3 ”代码 实现 


本 节 不 涉及 训练 过 程 ， 而 是 采用 OpenCV 中 已 经 训练 好 的 模型 进行 代码 演示 。 


首先 是 引入 相应 的 函数 库 和 分 类 模型 的 加 载 ， 代 码 如 下 : 


import numpy 
import cv2 
# 载 入 预 训练 模型 


face classifier = cv2.CascadeClassifier ('model/haarcascade frontalface default.xml') 

































































载 入 预 训练 模型 之 后 所 形成 的 分 类 器 可 以 用 于 训练 ， 这 里 需要 注意 xm| 文 件 所 在 的 位 置 ， 在 一 些 版 本 之 中 ， 可 能 会 出 现 无 法 定位 的 问题 ， 这 里 建议 在 实践 过 程 中 从 OpenCV 的 官网 上 直接 下 载 ， 里 面 已 
经 包含 了 相应 的 xml 文 件 。 待 完成 之 后 就 可 以 进行 图 片 的 读 取 了 ， 读 取 过 程 可 以 用 OpenCV 自 带 的 函数 进行 ， 由 于 人 脸 检测 任务 中 ， 图 形 颜 色 并 不 重要 ， 因 此 选择 的 方式 为 直接 进行 灰 度 处 理 ， 这 样 可 以 简 


化 分 类 任务 。 就 分 类 器 本 身 而 言 ， 其 就 是 在 灰 度 图 上 进行 的 处 理 ， 灰 度 处 理 代 码 如 下 : 




















# 读 入 图 片 并 进行 灰 度 处 理 
img = cv2.imread('data/face.jpg') 
gray = cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 














待 图 片 读 取 完成 就 可 以 进行 人 脸 识别 操作 了 ， 代 码 如 下 : 


# 识 别 图 片 中 的 人 脸 


faces = face classifier.detectMultiScale(gray, 1.3, 5) 


























FSF, BgidetectMultiScaleAiREBAR Mas, ARMADA, ASHER AEIHE. AVM Minera lie Axy, tit (x1, y1, 


WA (x1, y1, x2-x1, y2-y1) 。 如 果 图 片 中 含有 多 个 人 脸 信息 ， 则 会 返回 一 个 列表 ， 识 别 完成 后 可 以 绘制 识别 矩形 框 并 进行 输出 ， 代 码 如 下 : 


x2，y2) ， 那 么 返回 值 


Hee till FECA 
for (x,y,w,h) in faces: 

cv2.rectangle (img, (x,y), (xtw, yth), (100,0,100) ,2) 
cv2.imshow ( ‘img’ , img) 














最 终 识别 结果 如 图 7-13 所 示 。 





a) 原始 图 片 b) 识别 图 片 


图 7-13 识别 最 终 效 果 


由 图 7-13 可 以 看 到 最 终 的 识别 效果 ， 该 图 片 的 识别 结果 比较 有 代表 性 ， 图 片 中 大 部 分 人 脸 信息 都 进行 了 有 效 的 识别 ， 但 是 对 于 某 些 姿 势 的 人 脸 或 者 有 庶 挡 的 情况 并 没有 进行 完整 的 识别 ， 同 时 还 存在 一 


些 误 报 的 情况 ， 这 是 haar 小 波 等 方式 很 难 避 免 的 问题 。 


7.5 神经 网 络 方法 演进 


前 文 提 到 过 ，haar 小 波 方 法 是 针对 固定 特征 而 言 的 ， 这 种 固定 特征 的 选取 通常 缺乏 针对 性 ， 对 于 一 些 细节 特征 也 很 难 进行 描述 ， 因 而 在 计算 过 程 中 无 法 对 人 脸 的 个 性 特征 进行 有 效 地 识别 与 提取 ， 这 使 
得 传统 方法 仪 适用 于 人 脸 检测 。 但 是 对 于 人 脸 检 测 而 言 ， 其 依然 存在 着 问题 ， 具 体 如 图 7-14 所 示 。 





图 7-14 两 种 错误 : FARR, BABE 


由 图 7-14 可 以 看 到 ， 图 片 中 存在 两 个 识别 问题 : 第 一 个 问题 是 将 不 是 人 脸 而 被 识别 为 人 脸 的 情况 ， 这 种 错误 称 为 取 伪 错误 ; 第 二 个 问题 是 没有 识别 图 片 中 的 人 脸 ， 这 种 错误 称 为 弃 真 错误 。 在 一 般 的 人 
脸 识别 任务 之 中 ， 这 两 种 错误 都 不 可 取 。 


haar-like 特 征 是 基于 和 矩形 模板 提出 来 的 ， 从 一 个 方面 来 讲 ， 其 类 似 于 模板 匹配 的 过 程 ， 虽 然 加 入 了 Adaboost 算 法 对 特征 进行 了 有 效 的 筛选 ， 但 是 从 基础 特征 上 来 讲 ， 提 取 是 不 完善 的 。 因 此 改进 的 方 
式 包 括 对 于 模板 的 自 适应 改进 ， 也 就 是 神经 网 络 方法 。 神 经 网 络 方法 对 于 模板 特征 的 提取 是 自 适 应 的 过 程 ， 因 此 这 种 方式 的 特征 提取 更 加 有 效 ， 如 图 7-15 所 示 。 
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图 7-15” 卷 积 神经 网 络 特征 可 视 化 (Visualizing and Understanding Convolutional Networks) 


由 图 7-15 可 以 看 到 ， 由 于 神经 网 络 特征 的 自 适应 ， 提 取 的 特征 更 加 符合 训练 数据 ， 这 一 点 对 于 人 脸 识别 来 说 是 比较 重要 的 ， 其 可 以 处 理 更 加 复杂 的 面部 特征 ， 从 而 对 不 同情 况 下 的 人 脸 进行 准确 的 识 
别 ， 如 图 7-16 所 示 。 





图 7-16 ”神经 网 络 进 行人 脸 检测 


由 图 7-16 可 以 看 到 ， 使 用 神经 网 络 方法 进行 人 脸 检测 可 以 有 效 地 改善 上 述 问 题 ， 其 对 于 人 脸 的 特征 提取 更 加 完整 ， 这 一 点 表现 在 最 终 的 结果 之 上 就 是 弃 真 错误 、 取 伪 错 误 均 得 到 大 大 减少 。 


7.6 ”人 脸 识 别 网 络 构建 


正如 7.1 节 所 言 ， 人 脸 识 别 分 为 两 个 过 程 ， 第 一 个 过 程 为 人 脸 检测 ， 第 二 个 过 程 为 人 脸 识别 。 人 脸 检测 为 人 脸 识别 提供 了 数据 基础 。 因 此 本 节 的 第 一 部 分 (7.6.1 节 ) 将 介绍 人 脸 检测 网 络 MTCNN， 第 二 


部 分 (7.6.2 节 ) 将 介绍 人 脸 识别 网 络 Inception。 


7.6.1 人 脸 检测 网 络 MTCNN 


正如 前 文 所 言 ， 人 脸 检测 属于 一 个 相对 比较 简单 的 任务 ， 因 此 针对 人 脸 检测 任务 所 构建 的 神经 网 络 比较 简单 ， 其 网 络 深度 为 四 层 神 经 网 络 。 对 于 高 分 辩 率 图 片 而 言 ， 为 了 兼顾 效率 与 准确 度 ， 可 将 网 络 
分 为 三 个 部 分 ， 第 一 个 部 分 PNet 用 于 粗略 地 检测 图 片 中 的 人 脸 ， 网 络 为 全 卷 积 结构 ， 处 理 全 卷 积 网 络 的 方式 可 以 是 对 任意 大 小 的 图 片 进行 处 理 ， 这 对 于 图 片 而 言 是 很 有 必要 的 。 因 为 图 片 中 的 人 脸 通常 不 止 
一 个 ， 如 图 7-17 所 示 。 
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图 7-17 PNet 识 别 图 片 


由 图 7-17 可 以 看 到 ， 经 过 PNet 识 别 的 图 片 中 包含 了 较 多 的 错误 ， 也 就 是 存在 较 多 的 取 伪 错误 ， 这 是 由 PNet 本 身 的 结构 所 决定 的 ， 因 为 其 识别 图 片 为 12 像 素 ， 在 这 个 分 辨 率 上 ， 很 难 对 图 片 进行 有 效 识 


。 同 时 可 以 看 到 ， 结 果 中 人 存在 较 多 的 重 晋 部分， 这 增加 了 后 续 处 理 的 数据 量 。 为 了 解决 这 些 问题 ， 需 要 进行 的 处 理 为 NMS ( 极 大 值 抑 制 ) ， 以 减少 识别 结果 。 


上 文 说 到 过 ，PNet 结 构 为 纯 卷 积 结构 ， 因 此 可 以 处 理 不 同 大 小 的 图 片 ， 但 是 PNet 的 感受 野 为 固定 值 ， 大 小 为 12x12。 
感受 野 : 卷 积 神经 网 络 的 每 一 层 所 输出 的 特征 图 (Feature ap) 上 的 像素 点 在 原 图 像 上 映射 的 区 域 大 小 。 


显然 ， 不 同人 脸 的 大 小 不 一 定 均 为 12x 12 像 素 ， 因 此 在 处 理 的 过 程 中 ， 需 要 对 图 像 进行 伸缩 处 理 ， 形 成 一 系列 按 比例 缩小 的 图 形 ， 这 称 为 图 形 金字 塔 ， 如 图 7-18 所 示 。 
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图 7-18 图像 金 字 塔 


接 下 来 要 处 理 两 个 神经 网 络 结构 (RNet 和 ONet) ， 两 者 同样 为 四 层 神经 网 络 ， 不 同 点 在 于 两 者 最 后 一 层 网 络 中 存在 全 连接 结构 ， 这 就 需要 利用 PNet 结 果 截取 进行 输入 。 上 述 三 个 神经 网 络 结构 如 图 7- 
19 所 示 。 
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图 7-19 PNet、RNet 与 ONet 的 结构 与 输入 数据 


图 7-19 是 针对 训练 数据 而 言 的 ， 在 计算 的 过 程 中 ， 这 三 个 网 络 需要 单独 进行 训练 ， 它 们 的 loss 函 数 各 有 不 同 ， 针 对 两 种 不 同 任务 ， 识 别 是 否 为 人 脸 的 人 脸 分 类 任务 与 人 脸 特 征 点 定位 ， 对 于 人 脸 分 类 任 
BMS, AMABMALLNG: 


L“ =-y" log(p,)+(1- y )(1-log(p,)) (7.6) 


Hh, y 为 标签 ， 用 于 标注 是 否 为 人 脸 ， 其 取 值 范围 为 {0，1}。i 用 于 标注 不 同 的 网 络 。 
对 于 人 脸 边 界 识别 而 言 ， 其 损失 函数 为 二 范 数 : 
z= 


i = d?” o yor ( 7.7 ) 


r. 


对 于 人 脸 特 征 点 而 言 ， 其 损失 函数 同样 为 二 范 数 : 


= P a e < ( T Q ) 


I I I 


ta 


对 于 三 个 网 络 而 言 其 损失 上 函数 各 有 不 同 : 
= İpi 7 | 
loss 2 j={det,box,landmark} Q; L Oinsl Cc {RNet, PNet, ONet} ( Vo ) 


其 中 ，6img 用 于 标注 是 否 为 人 脸 图 形 ， 若 是 则 为 1， 否 则 为 0。oaj 用 于 决定 不 同 网 络 的 三 个 标志 的 损失 权 值 : 


*=1.0;a°" =0.5;a" =0.5 ifi= PNet 
* = 1.0; a" =0.5;0°"™"* =0.5 ifi= RNet (7.10 ) 
=1.0;ao =0.5;0°"™"* =1.0 ifi=ONet 


7.6.2 ”用 于 人 脸 检测 的 GoogleNet 


对 于 人 脸 识 别 数据 而 言 ， 由 于 所 需要 识别 的 特征 更 多 ， 因 此 需要 借助 于 深度 神经 网 络 ， 以 增加 自由 参数 数量 ， 对 人 脸 特 征 进 行 更 深入 的 学 习 。 由 于 深度 神经 网 络 在 参数 数量 上 的 又 增 ， 会 对 计算 效率 产 
生 比 较 大 的 影响 ， 因 此 需要 对 神经 网 络 进 行 改进 ， 如 图 7-20 所 示 。 





图 7-20” 卷 积 核 核心 变化 示意 图 


在 网 络 结构 的 改进 中 ， 卷 积 核心 的 大 小 从 5 改 为 3， 这 样 可 以 有 效 地 加 快 计算 速度 ， 之 后 再 将 3x 3 的 卷 积 核心 改 为 3x1+1x3 的 卷 积 核心 形式 。 如 图 7-21 所 示 为 卷 积 核心 的 改进 方式 。 





图 7-21 HARB SH BUF HX, 


如 图 7-21 所 示 ， 在 传统 的 Inception 中 ， 为 计算 不 同 尺 度 的 特征 在 混合 层 之 中 融入 多 个 卷 积 融合 结果 的 连接 ， 这 属于 矩阵 连接 操作 。 作 为 改进 的 方式 ， 可 将 大 的 卷 积 核心 分 拆 为 两 个 小 的 卷 积 核心 ， 如 此 
可 以 减少 计算 操作 。 在 之 后 的 改进 中 ， 将 卷 积 核心 改 为 3x 1+1x3 的 核心 形式 ， 以 进一步 减少 计算 量 ， 如 此 可 以 有 效 地 降低 运算 速度 。 最 终 的 网 络 形式 为 卷 积 与 混合 层 的 融合 形式 ， 具 体 请 见 表 7-5。 


如 表 7-5 所 示 ，Mixed 层 为 图 7-21 所 示 的 多 个 卷 积 融合 层 。 在 通过 传统 的 卷 积 层 之 后 ， 重 复 输入 多 个 Mixed 层 ， 如 此 可 以 更 好 地 对 特征 进行 提取 。 


表 7-5 网络 结构 
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7.7 ”主流 人 脸 识 别 网 络 差 异 分 析 


目前 ， 主 流 的 人 脸 识别 网 络 包括 AlexNet.VGG、Google-Net 和 和 ResNet， 其 中 AlexNet 是 2012 年 提出 的 ， 作 为 最 初 的 人 脸 识 别 网 络 ， 其 在 网 络 结构 上 比较 简单 。 之 后 是 VGG 与 GoogleNet， 两 种 网 络 结 
构 相 比 于 AlexNet 均 有 不 同 程度 的 增加 ， 这 种 增加 使 得 人 脸 识别 效果 更 加 出 众 ， 如 前 文 所 言 ，GoogleNet 对 网 络 子 结构 进行 了 改进 ， 所 以 其 运行 速度 与 精度 达到 了 一 个 平衡 。 最 后 是 ResNet， 目 前 来 说 ,其 
网 络 结构 是 最 深 的 ， 一 些 ResNet 的 深度 会 达到 1000 层 ， 在 这 个 深度 之 上 可 以 更 好 地 对 特征 进行 提取 ， 因 此 其 是 几 种 网 络 之 中 效果 最 好 的 。 


表 7-6 所 示 为 上 述 四 种 人 脸 识别 网 络 的 对 比 。 


表 7-6 人 脸 识 别 网 络 对 比 


模型 名 AlexNet GoogLeNet ResNet 





Top-5 fix 3 3.57% 
数据 集 扩充 ne + 
Inception (NIN) es a ee 

卷 积 层 数 151 

a FARR KR) 713.5 





全 连接 层 数 


| 4 | 
Dropout EE AO Tr | + 
Local Response Normalization 下 = 
Batch Normalization I | | 一 


由 表 7-6 可 以 看 到 ， 所 有 的 人 脸 识别 网 络 ， 从 另 一 个 角度 来 看 ， 都 是 基于 特征 的 数据 压缩 过 程 ， 将 一 定 大 小 的 图 形 ， 压 缩 成 长 度 为 1000 左 右 的 向 量 。 通 过 向 量 的 对 比 来 对 不 同 的 人 脸 进行 分 析 。 上 述 四 
种 人 脸 识 别 网 络 的 错误 率 中 ，ResNet 是 最 低 的 ， 这 是 由 其 庞大 的 参数 量 决定 的 。 以 上 每 个 数据 集 都 需要 进行 扩充 ， 以 识别 不 同 状况 下 的 人 脸 。 作 为 一 种 有 效 的 、 减 少 训练 过 程 中 出 现 的 梯度 问题 的 方 
式 ，BatchNormalization 被 用 于 ResNet 网 络 之 中 ， 以 减少 训练 过 程 中 出 现 的 梯度 问题 。ResNet 网 络 层 数 达到 了 100 多 层 ， 目 前 改进 之 后 的 网 络 层 数 达到 了 1000 层 ， 这 就 使 得 训练 过 程 中 很 容易 出 现 梯度 问 
题 ， 因 此 需要 进行 避免 梯度 问题 策略 的 操作 ， 这 不 仅 包 括 Dropout 方 法 ， 还 包含 网 络 结构 本 身 的 改进 。ResNet 之 中 包含 有 大 量 的 跨 层 连接 操作 。 


7.8 TensorFlow 搭 建 网 络 


TensorFLow 中 自 带 了 完整 的 人 脸 识 别 网 络 一 一 InceptionV1-V3， 在 识别 效果 上 其 可 以 达到 一 个 比较 满意 的 准确 度 。 在 网 络 结构 中 ， 输 入 数据 长 度 为 299x299x3， 为 RGB 彩色 模式 下 的 二 维 图 形 。 在 
进行 四 次 卷 积 与 两 次 池 化 操作 之 后 ， 输 入 数据 的 维度 为 35x35x192。 之 后 的 数据 输入 到 Mixed 层 之 中 ，Mixed 层 中 的 代码 具体 见 代 码 清单 7-1: 


代码 清单 7-1 BAR 


with variable scope.variable scope (end point): 

with variable scope.variable scope('Branch 0'): 
branch 0 = sok eee 

net, depth(64), 1, scope='"Conv2d 0a 1x1") 
with variable scope.variable | scope ("Branch ars 
1 = layers.conv2d ( 
net, depth(48), 1, scope='"Conv2d 0a 1x1") 
= layers.conv2d ( 

branch 1, depth(64), 5, scope='Conv2d Ob 5x5') 

with variable scope.variable scope('Branch 2'): 






























































branch 2 = layers.conv2d( 

net, depth (64), 1, scope='Conv2d 0a 1x1") 
branch 2 = layers.conv2d ( 

branch 2, depth (96), 6, scope='Conv2d Ob 3x3") 
branch 2 = layers. T A o 

branch | 2, depth (96), 6, scope='Conv2d Oc 3x3') 








with variable scope.variable scope('Branch 3'): 
branch 3 = layers lib.avg poolld(net, 6, scope='AvgPool 0a 3x3') 
branch 3 = = layers.conv2d ( 
branch 3, depth(32), 1, scope='Conv2d 0b 1x1") 
net = array ops.concat([branch 0, branch 1, branch _. 2, branch 3], 2) 
end points[end point] = net 








由 代码 清单 7-1 可 知 ， 混 合 层 中 有 四 个 卷 积 分 支 ， 可 以 用 于 识别 不 同 尺度 的 特征 ， 之 后 的 操作 为 向 量 的 连接 操作 遂 数 concat， 此 浮 数 用 于 连接 四 个 卷 积 结果 ， 以 保存 不 同 层 的 特征 。 在 之 后 的 多 个 
Mixed 层 中 依然 保持 这 种 形式 。 最 后 一 层 的 代码 中 加 入 了 全 链接 层 ， 用 于 输出 图 片 特 征 向 量 ， 特 征 向 量 用 于 代表 图 片 。 在 传统 的 分 类 方法 中 ， 所 用 的 浮 数 为 one-hot 编 码 方式 ， 但 是 这 种 稀 玖 编码 并 不 适合 
于 对 人 脸 的 识别 任务 ， 因 为 若 为 每 一 个 人 脸 都 建立 一 个 类 的 话 ， 则 会 使 得 类 大 大 增多 ， 因 此 一 种 思想 是 利用 一 个 固定 长 度 的 向 量 代表 人 脸 ， 不 同人 脸 向 量 距离 较 大 ， 相 同人 脸 距 离 较 小 。 现 在 常用 的 方式 是 
输入 三 个 不 同 的 人 脸 进 行 损失 函数 计算 ， 称 为 Triplet Loss, 


图 7-22 所 示 的 是 Triplet Loss 的 优化 过 程 。 
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图 7-22 ”优化 过 程 示 意图 


图 7-22 所 示 的 优化 过 程 是 比较 直观 的 Triplet loss 的 学 习 过 程 ， 其 将 使 得 匹配 人 脸 与 模板 人 脸 尽 可 能 接近 ， 同 时 使 得 非 匹 配 人 脸 与 模板 人 脸 尽 可 能 的 远 ， 具 体 数 学 表示 形式 为 : 


2 2 
a p a ` n ZA i 
s(x )- f(x ) ta<| f(x )- f(x ) (7.11) 
2 2 
这 里 x 代表 模板 人 脸 输 入 数据 ， 经 过 函数 f(x) 后 ， 输 出 长 度 为 128 的 向 量 代表 人 脸 。xp 与 X" 分 别 代表 匹配 人 脸 与 非 匹 配 人 脸 ， 为 使 得 二 者 距离 足够 远 ， 人 为 加 入 了 一 个 边界 ct。 


这 个 loss 函 数 在 TensorFlow 中 的 实现 如 代码 清单 7-2 所 示 : 


代码 清单 7-2” loss 函数 



















































































pos dist = tf.reduce sum(tf.square(tf.subtract (anchor, positive)), 1) 
neg dist = tf.reduce sum(tf.square(tf.subtract (anchor, negative)), 1) 
basic loss = tf.add(tf.subtract (pos dist,neg dist), alpha) 

loss t£.reduce mean (tf.maximum(basic loss, 0.0), 0) 


代码 清单 7-2 中 的 anchor 指 的 就 是 模板 人 脸 结果 ，positive 为 匹配 人 脸 ，negative 为 非 匹 配 人 脸 ， 三 个 向 量 都 是 GoogleNet 网 络 所 输出 的 128 向 量 。 计 算 向 量 的 二 范 数 将 作为 损失 函数 进行 训练 。 


79 ”参数 调 优 


人 脸 识 别 中 的 参数 调整 比较 重要 ， 网 络 结构 较 深 ， 需 要 调整 的 参数 包括 递 代 方法 选择 、 梯 度 步 长 、dropout 参 数 等 。 对 于 梯度 步 长 而 言 ， 其 选择 并 不 是 固定 的 ， 而 是 根据 epoch 的 选择 在 不 断 变化 的 ， 
初期 选择 比较 大 的 步 长 可 以 防止 迭代 在 初期 下 降 缓 慢 ， 而 在 迭代 中 后 期 选择 较 小 的 梯度 参数 可 以 有 效 地 防止 迭代 过 程 中 的 失 稳 。 


表 7-7 和 迭代 步 长 选择 


迭代 回合 (epoch) 步 长 
0-64 0.1 
O4- 0.01 

77-1000 0.001 


L000- 0.0001 


在 人 脸 识 别 任务 中 ， 对 返 代 效果 改变 比较 明显 的 是 对 损失 函数 的 定义 ， 一 般 的 损失 函数 在 定义 的 过 程 中 选择 的 是 Triplet loss， 这 种 损失 函数 虽然 可 以 比较 直观 地 进行 理解 ， 但 是 在 实际 的 应 用 中 其 效果 
可 能 并 不 明显 ， 因 此 选择 的 损失 函数 在 转化 为 分 类 问题 后 ， 提 出 了 在 传统 的 分 类 问题 的 基础 上 ， 类 间距 离 应 尽 可 能 得 大 ， 这 称 之 为 Center loss， 如 图 7-23 所 示 。 


由 图 7-23 可 以 看 到 ， 分 类 问题 是 在 原 有 分 类 的 基础 上 ， 使 得 类 间距 离 尽 可 能 的 远 ， 这 可 以 有 效 地 增强 神经 网 络 的 强壮 性 。 对 于 现 有 的 人 脸 分 类 任务 而 言 ， 其 最 主要 的 任务 是 将 问题 转换 为 分 类 问题 ， 具 


体 见 代码 清单 7-3: 





图 7-23 Center loss 使 用 


代码 清单 7-3 分 类 问题 








prelogits, = network.inference (image batch, args.keep probability, 
phase train=phase train placeholder, bottleneck layer size=args.embedding size, 
weight _decay=args.weight decay) 7 7 7 
logits = slim.fully connected (prelogits, 
len (train _set),activation_fn=None, 
weights initializer=tf.truncated_ normal initializer (stddev=0.1), 
weights regularizer=slim.12 regularizer(args.weight decay), 
scope='Logits', reuse=False) 
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Center loss 的 计算 过 程 具体 见 代 码 清单 7-4: 


代码 清单 7-4 计算 Center loss 














def center loss(features, label, alfa, nrof classes): 
"""Center loss based on the paper "A Discriminative Feature Learning Approach for Deep Face Recognition" 
(http: //ydwen.github.io/papers/WenECCV16.pdf) 
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nrof features = features.get shape () [1] 

centers = tf.get variable('centers', [nrof classes, nrof features], dtype=tf.float32, 
initializer=tf.constant initializer(0), trainable=False) 

label = tf.reshape(label, [-1]) 

centers batch = tf.gather (centers, label) 

diff = (1 - alfa) * (centers batch - features) 

centers = tf.scatter sub (centers, label, diff) 

loss = tf£.reduce mean(tf.square (features - centers batch) ) 

return loss, centers 











利用 代码 清单 7-4 所 示 的 方法 可 进行 人 脸 损失 函数 的 建立 。 


7.10 ”实战 分 析 


实战 分 析 可 以 分 为 两 个 部 分 来 讲解 ， 第 一 个 任务 就 是 检测 出 人 脸 ， 使 用 的 图 片 为 新 闻 图 片 7-24。 





图 7-24 原始 图 片 


正如 前 文 所 言 ， 处 理 图 片 的 第 一 步 是 对 图 片 进行 人 脸 检 测 ， 检 测 方 法 可 以 有 很 多 种 ， 比 如 Haar 特 征 提取 ， 利 用 MTCNN 方 法 进行 提取 ， 两 者 在 精度 上 是 有 差距 的 ， 精 度 比 较 高 的 方法 是 MTCNN 方 法 ， 
其 在 精度 和 速度 上 都 比较 令 人 满意 。 两 种 提取 方法 的 检测 结果 分 别 见 图 7-25a 和 图 7-25b。 





my WW 


a) Haar 特征 提取 b) MTCNN 方法 
图 7-25 ”两 种 方式 进行 人 脸 检 测 


由 图 7-25 可 以 看 到 ， 用 两 种 方法 均 可 以 有 效 提取 人 脸 。Haar 特 征 方法 在 计算 速度 上 表现 出 一 定 优势 ， 其 精度 有 所 不 足 ; 而 MTCNN 方 法 虽然 速度 有 所 欠缺 ， 但 是 精度 较 高 。 精 度 和 速度 通常 是 一 个 根据 


具体 要 求 不 断 权衡 的 过 程 。 


之 后 需要 对 截 出 的 人 脸 进行 识别 ， 这 个 过 程 中 需要 预先 保存 向 量 。 首 先 需 要 对 人 脸 本 身 进行 识别 以 形成 特征 向 量 ， 在 之 后 计算 过 程 中 的 对 比 为 向 量 的 对 比 ， 这 里 的 计算 保存 了 三 个 人 脸 向 量 ， 具 体 如 
下 : 


python d:/BITBUCKET/facenet/data/vect/test.py 
a ,6.0181197,...(128)...) 


Vecti: (-0.00418057,0.0821493, -0.0521831, -0.02809 8, -0.224914, -0.0167326, ~»+(128)...) 
Vect2?: (-6.0305883, Ð. 053946, -0.0253121, -08.0210599 , -9.175039, -0.0320647 , . . . (128)... ) 





利用 上 述 三 个 计算 结果 与 新 人 脸 数据 进行 对 比 ， 计 算 其 欧式 距离 ， 如 果 小 于 1， 则 属于 相应 的 人 脸 类 ， 通 过 这 种 方式 对 图 片 进行 识别 ， 如 图 7-26 所 示 。 
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图 7-26 RAAMI AER 


7.11 本 章 小 结 


本 章 中 所 学 习 到 的 并 不 只 是 网 络 结构 的 建立 ， 还 需要 了 解 整个 神经 网 络 的 输入 和 输出 ， 以 及 如 何 利用 输出 建立 损失 函数 ， 这 是 学 习 每 个 神经 网 络 所 必须 了 解 的 内 容 ， 对 于 人 脸 识 别 任务 ， 其 输入 和 输出 
具体 如 下 。 


“输入 

1) 国定 大 小 图 片 。 

输出 

2) 固定 长 度 (文中 为 128) 向 量 。 
. 损失 函数 


1) Triplet loss。 


可 以 看 到 ， 人 脸 识 别 网 络 实际 上 可 以 看 成 是 一 个 数据 压缩 函数 ， 将 一 个 固定 长 度 的 高 维 向 量 (图 片 ) ， 压 缩 成 一 个 低 维 向 量 (128) ， 而 这 个 低 维 向 量 可 以 用 于 描述 人 脸 的 特征 。 


第 8 草 Ase 


“自动 驾驶 ”是 一 个 发 展 了 很 多 年 的 领域 ， 早 在 1925 年 ， 就 诞生 了 人 类 历史 上 第 一 辆 “自动 驾驶 汽车 ” ， 至 今 已 近 百 年， 其 是 由 一 位 来 自 美 国 陆军 的 电子 工程 师 Francis P.Houdina， 使 用 无 线 电 波 来 
控制 前 方 车 辆 的 方向 盘 等 部 件 来 完成 的 ， 可 以 将 此 视 为 自动 驾驶 最 初 的 尝试 。 


自动 驾驶 是 深度 学 习 、 人 工 智能 在 交通 、 汽 车 行业 的 延伸 。 最 近 几 年 深度 学 习 及 计算 机 视觉 技术 的 突破 ， 使 得 无 人 驾驶 技术 也 取得 了 突破 性 发 展 。 
自动 驾驶 汽车 通过 人 工 智能 、 深 度 学 习 、 激 光 雷 达 、 摄 像 头 和 GPS 系统 等 技术 协同 合作 。 自 动 驾驶 系统 是 包含 环境 感知 、 决 策 、 和 车 辆 控制 等 功能 于 一 体 的 综合 系统 。 


近 几 年 ， 国 内 外 很 多 巨头 和 创业 公司 都 在 这 个 领域 进行 布局 。 既 有 谷歌 、 百 度 等 互联 网 巨头 ， 也 有 Mobieyes、 驭 势 科 技 等 势头 强劲 的 创业 公司 ， 同 时 传统 汽车 厂商 也 积极 投入 其 中 进行 研发 及 合作 。 自 
驾驶 领域 的 发 展 呈 现 如 火 如 茶 的 形式 。 


8.1 目 动 雪 驶 的 介绍 与 应 用 领域 


首先 我 们 需要 对 自动 驾驶 的 应 用 场景 和 分 级 进行 了 解 ， 这 样 才能 对 技术 是 如 何 应 用 的 以 及 工业 界 的 评判 标准 有 一 个 初步 的 全 面 的 了 解 。 


8.1.1 ”上 自动 备 驶 的 应 用 场景 
据 权威 机 构 估计 ， 半 自动 驾驶 、 无 人 驾驶 汽车 以 及 新 能 源 汽车 在 未 来 几 十 年 的 市 场 中 潜力 很 大 。 波 士 顿 咨询 集团 预测 ，“ 无 人 驾驶 车 辆 的 全 球 市 场 份额 要 达到 25%， 需 要 花费 15-20 年 的 时 间 。” 充 满 
机 遇 的 同时 ， 自 动 轰 驶 也 充满 了 技术 挑战 ， 无 论 是 技术 的 成 熟 度 还 是 用 户 的 接收 程度 ， 在 现 阶段 都 还 没有 达到 自动 驾驶 技术 的 大 范围 应 用 。 


无 人 驾驶 汽车 最 有 可 能 会 先进 入 限定 场景 的 自动 驾驶 或 者 商用 运营 车 ， 随 后 再 向 消费 级 市 场 渗透 。 首 先 因为 自动 驾驶 汽车 需要 安装 大 量 的 硬件 传感器 ， 例 如 摄像 头 、 感 应 器 、 激 光 和 人 工 智能 系统 ， 无 


人 驾驶 汽车 的 最 初 成 本 会 很 高 。 成 本 较 高 则 意味 着 大 中 型 企业 和 一 些 特殊 行业 可 能 会 是 早期 消费 群体 。 最 有 可 能 采纳 无 人 车 的 行业 包括 网 约 车 、 巴 士 、 出 租车 、 快 递 车 辆 、 工 业 应 用 以 及 老年 人 和 残疾 人 士 
出 行车 辆 。 


下 面 是 自动 驾驶 和 相应 投入 公司 较为 关注 的 几 个 应 用 场景 及 应 用 场景 的 特点 。 
速 公路 : 在 高 速 公路 行驶 的 应 用 场景 下 ， 高 速 道路 环境 相对 封闭 和 稳定 ， 而 且 高 速 公路 行驶 占 一 半 以 上 的 驾驶 总 时 间 ， 是 自动 驾驶 较 大 的 应 用 场景 。 
* 自动 泊 车 : 停车 位 在 北京 等 这 些 大 城市 中 是 非常 紧张 的 ， 而 且 停车 位 相对 拥挤 ， 用 户 有 自动 代 客 泊 车 的 需求 。 其 相应 技术 在 一 些 高 端 车 型 中 也 已 经 有 所 应 用 。 


. 相对 封闭 环境 内 的 商用 车 : 商用 车 的 运营 成 本 中 ， 人 力 、 燃 料 、 汽 车 成 本 分 别 占据 三 分 之 一 。 发 展商 用 车 自动 驾驶 有 可 能 会 大 幅度 节约 人 力 和 燃料 成 本 。 在 环境 相对 封闭 的 港口 、 矿 场 、 工 厂 和 公司 
园区 等 封闭 环境 中 按照 固定 路 线 低速 运行 ， 实 现 自动 驾驶 技术 也 有 一 定 的 市 场 。 


8.1.2 目 动 驾驶 分 级 


如 何 区 分 自动 驾驶 的 技术 程度 ， 以 及 如 何 辨 别 一 家 公司 的 自动 驾驶 技术 水 平 ? 一 些 官方 机 构 曾 经 提出 过 一 些 自动 驾驶 方案 。NHTSA (美国 高 速 公 路 安全 管理 局 ) 和 SAE (美国 汽车 工程 师 协 会 ) 都 曾 提 
出 过 自动 驾驶 分 级 方案 。SAE 将 自动 驾驶 技术 分 为 LO ~L5 共 六 个 等 级 。L0 代 表 没 有 自动 驾驶 加 入 的 传统 人 类 驾驶 ，L1 ~L5 则 根据 自动 驾驶 的 成 熟 程 度 进行 了 分 级 。 


NHTSA 和 SAE 的 自动 驾驶 分 级 可 以 分 别 在 官网 上 下 载 ， 图 8-1 是 NHTSA 和 SAE 的 分 级 方式 的 中 文 版 表格 。 


主体 
| | sat "weno OE 


yy | BARSREMUMEAS ， 在 行驶 过 程 中 可 以 得 到 警告 

和 保护 系统 的 辅助 。 | 
通过 驾驶 环境 对 方向 盘 和 加 减速 中 的 一 项 操作 提供 驾驶 支 | 人 类 驾驶 者 | 
_ 援 ,其 他 的 驾驶 动作 都 由 人 类 驾驶 员 进 行 操作 。 | 系统 
通过 驾驶 环境 对 方向 盘 和 加 减速 中 的 多 项 操作 提供 驾驶 支 








* 





marsh | MERE ERSEIIT A 
路 和 环境 条 件 等 ， 
由 无 人 区 驶 系统 充 成 所 有 的 驾驶 操作 。， 人 类 克 驶 者 在 可 能 
充 全 自动 化 |。 的 情况 下 接管 。 在 所 有 的 道路 和 环境 条 件 下 驾驶 。 


图 8-1 自动 驾驶 分 级 








下 面 以 SAE 自 动 驾驶 级 别 为 例 进行 介绍 


‘LIRA WEI 


L1 级 的 自动 驾驶 能 为 驾驶 员 提 供 一 些 辅助 驾驶 功能 。 例 如 ， 已 经 在 很 多 车 上 搭载 了 的 自 适 应 巡航 (ACC) 功能 ， 即 能 够 通过 雷达 探测 与 前 车 的 实时 距离 自动 控制 加 减速 ， 基 于 这 些 功能 车 辆 能 够 在 一 些 
的 特定 环境 下 维持 行驶 的 状态 。 


[2 级 自动 驾驶 


L2 汽 车 的 控制 系统 可 以 在 特定 的 情况 下 控制 汽车 ， 但 司机 还 是 需要 坐 在 驾驶 位 并 全 程 监 控 驾 驶 情况 。 也 就 是 说 系统 除了 能 够 控制 加 减速 ， 同 时 还 能 对 方向 有 一 定 的 控制 。 汽 车 除了 具备 上 面 L1 级 具备 的 
自动 驾驶 功能 ， 还 具备 车 道 保持 (LKA) 功能 ,或 者 自动 变 道 功能 ， 即 可 认为 是 L2 级 自动 驾驶 。 


- 13 级 自动 轰 驶 


L3 级 自动 驾驶 将 道路 环境 的 观察 者 由 人 变更 为 系统 。 环 境 观 察 和 驾驶 操作 都 由 系统 来 完成 ， 系 统 识别 出 直线 、 弯 道 、 红 绿灯 、 限 速 路 牌 ,行人 等 各 种 环境 。 人 需要 对 所 有 的 系统 请 求 进行 应 答 。 例 如 ， 


仿 测 到 前 方 有 人 在 车 道 较 近 处 走动 是 否 需要 鸣 笛 提醒 ， 等 等 ， 系 统 会 将 这 些 请 求 反馈 给 驾驶 员 ， 由 驾驶 员 来 做 决定 。 
“ L4 自 动 驾 驶 
驾驶 操作 和 环境 观察 仍然 都 由 系统 来 完成 。 在 L3 的 基础 上 ， 人 不 需要 对 所 有 的 系统 要 求 都 进行 应 答 。 例 如 ， 只 有 在 某 些 地 形 复杂 、 天 气 恶劣 的 情况 下 ， 才 需要 人 对 系统 请 求 做 出 决策 。 
` L52 IR 


L5 级 自动 驾驶 就 是 全 自动 驾驶 技术 。L5 是 最 高 级 别 的 自动 驾驶 技术 ， 和 驾驶 过 程 中 不 需要 司机 进行 控制 和 干预 ， 自 动 驾驶 程序 能 够 独自 完成 所 有 情况 的 处 理 。 


8.2 BJA 


自动 驾驶 的 底层 支撑 技术 不 止 一 种 。 大 的 类 别 包括 传统 的 基于 规则 的 自动 驾驶 方式 ， 以 及 采用 深度 学 习 端 到 端 (End-to-End) 的 技术 。 


图 8-2 ”基于 规则 的 自动 驾驶 模块 


基于 规则 的 自动 驾驶 经 历 了 二 三 十 年 的 发 展 ， 主 流 的 基于 规则 (Rule based) 的 自动 特 驶 系统 ， 从 车 辆 状态 感知 、 决 策 到 控制 形成 了 一 个 闭环 ， 如 图 8-2 所 示 。 模 块 流程 定义 清晰 ， 模 块 复杂 ， 需 要 研 
发 人 员 设 计 成 百 上 干 个 模块 ， 同 时 还 需要 高 精 地 图 和 较 高 车 载 计算 能 力 的 支持 。 


基于 端 到 端的 自动 驾驶 方式 ， 其 输入 数据 是 摄像 头 的 数据 ， 输 出 是 对 车 的 驾驶 的 控制 反馈 。 中 间 通 过 训练 良好 的 深度 学 习 模 型 进行 环境 特征 的 提取 和 决策 。 
但 是 End to End 的 自动 化 程度 和 安全 性 相 比 基于 规则 的 方式 还 有 差距 ， 但 是 由 于 其 传感器 成 本 低 ， 模 块 复杂 程度 低 ， 因 此 其 系统 工程 复杂 度 也 低 。 


由 于 自动 驾驶 的 整体 技术 涵盖 范围 较 广 ， 本 书 围绕 的 又 是 深度 学 习 技 术 ， 所 以 本 章 只 选取 其 中 较为 通用 的 技术 点 和 与 深度 学 习 相 关 的 技术 进行 介绍 。 


8.2.1 imelim TS 3 Se 


端 到 端 (End to End) 的 自动 驾驶 技术 近 几 年 来 发 展 得 如 火 如 茶 ， 其 实 早 在 1988 年 ， 就 已 经 有 了 End to End 自 动 驾驶 的 雏形 。 我 们 可 以 从 如 下 几 个 End to End 自 动 驾驶 系统 中 理 清 自动 驾驶 的 发 展 脉 
络 。 


ALVINN: 1988 年 ， 美 国 卡 内 基 梅 隆 大 学 的 研究 人 员 ， 研 发 出 了 一 套 名 为 ALVINN (Autonomous Land Vehicle In a Neural Network) 的 自动 驾驶 系统 ， 使 用 在 NAVLAB 货 车 上 。ALVINN 底 层 采 用 
的 是 神经 网 络 的 算法 和 系统 ， 使 用 的 是 全 连接 的 浅 层 神经 网 络 ， 外 部 传感器 使 用 的 是 单 目 摄像 头 来 感知 外 部 环境 。 


DAVE: LeCun 等 在 2005 年 发 布 了 基于 端 到 端 深度 学 习 的 自动 驾驶 。 论 文 标题 为 Off-Road Obstacle Avoidance through End-to-End Learning。 技 术 细节 是 : 网 络 结构 使 用 6 层 卷 积 网 络 ， 双 目 相机 
收集 输入 数据 为 RGB 图 ， 数 据 样本 为 图 片 ， 预 测 为 方向 盘 方向 。 论 文 的 结论 为 : 系统 的 主要 优势 是 其 对 野外 环境 中 的 各 种 情况 都 具有 和 鲁 棒 性 ， 输 入 图 像 ， 即 可 预测 行进 方向 。 这 项 工作 影响 了 NVIDIA 在 





2016 年 提出 的 DAVE 2 End to EndRES UAE. 


DeepDriving: Princeton 在 2015 年 发 布 了 DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving 研 究 方案 。 研 究 工 作 采 用 混合 方案 ， 综 合 了 基于 规则 和 End to End 的 
方法 进行 预测 。 方 案 基 于 CNN ， 实 现 通 过 Caffe 框 架 ， 网 络 结构 则 基于 AlexNet。 数 据 集 使 用 TORCS 模 拟 数据 ， 同 时 基于 KITTI 数 据 集 进 行 验证 。 


DAVE 2: NVIDIA 在 2016 年 发 布 了 End to End Learning for Self-Driving Cars，NVIDIA 使 用 实 车 进行 测试 。 数 据 来 源 于 摄像 头 路 况 数据 ， 网 络 结构 采用 优化 设计 的 CNN 结 构 。 论 文公 布 实测 结果 : 
600 秒 内 需要 人 工 干预 10 次 。 在 某 些 路 况 下 也 有 连续 自动 驾驶 10 英 里 不 需要 人 工 干预 的 情况 。 


8.2.2 ”底层 硬件 支撑 技术 平台 


除了 软件 层 的 技术 流派 ， 自 动 驾 驶 也 依赖 于 底层 支撑 硬件 平台 。 支 撑 自 动 驾 驶 的 辅助 硬件 主要 有 传感器 和 和 车载 处 理 器 等 。 
1. 自 动 驾 驶 加 速 处 理 器 

自动 驾驶 需要 大 量 的 运算 进行 感知 数据 的 处 理 、 建 模 和 决策 ， 以 及 深度 学 习 模 型 的 在 线 推断 。 如 果 采 用 深度 学 习 ， 训 练 阶段 的 计算 可 以 放 在 基础 训练 平台 或 云 平台 上 ， 而 不 用 放 在 车 辆 端 进 行 。 

例如 ， 英 伟 达 公司 较 早 在 自动 驾驶 领域 布局 ， 英 伟 达 应 用 在 下 一 代 DRIVE 平 台 上 的 处 理 器 Xavier 已 经 开始 量 产 制造 。Xavier 处 理 器 可 以 在 自动 驾驶 的 程序 中 使 用 深度 学 习 神 经 网 络 算法 ， 用 来 处 理 汽车 
内 外 的 传感器 数据 。 根 据 贡 伟 达 官方 公布 的 结果 ， 处 理 器 具备 了 16nm 工 艺 制程 技术 ， 搭 载 70 亿 个 晶体 管 ， 支 持 最 高 8K 分 辨 率 的 画面 解析 度 ， 内 置 VoltaGPU 架 构 ， 可 以 同时 在 自动 驾驶 汽车 上 实现 计算 机 视 
党 加 速 器 能 力 。 
2. 传 感 器 

(1) 雷达 传感器 

车 载 雷 达 的 种 类 包括 激光 雷达 、 毫 米 波 雷 达 和 超声 波 雷 达 等 。 雷 达 传 感 器 可 以 探测 一 定 范 围 内 物体 的 坐标 位 置 、 距 离 及 行驶 速度 。 以 下 是 几 种 不 同 的 雷达 技术 的 对 比 ， 它 们 分 别 具 有 以 下 几 种 特点 。 

1) 激光 雷达 探测 范围 广 、 精 度 较 高 、 但 成 本 也 高 。 

2) 毫米 波 雷达 探测 距离 较 远 、 成 本 较 低 、 可 以 为 车 企 广泛 使 用 ， 但 与 激光 雷达 相 比 其 精度 稍 低 ， 可 视角 度 偏 小 。 

3) 超声 波 雷达 成 本 最 为 低廉 ， 探 测 距 离 近 、 精 度 低 ， 更 适用 于 低速 下 的 碰撞 预警 。 

在 不 同 的 自动 驾驶 应 用 场景 和 方案 中 ， 服 务 提供 商 根据 成 本 和 功能 等 权衡 所 选择 的 传感器 不 一 定 相同 。 


(2) 摄像 头 


摄像 头 可 以 应 用 于 交通 标志 牌 识 别 、 行 人 检测 、 车 道 线 检测 、 车 辆 检测 等 应 用 场景 。 车 载 摄像 头 的 类 型 一 般 包 含 单 目 摄像 头 、 双 目 摄 像 头 、 红 外 摄像 头等 类 型 。 摄 像 头 与 雷达 等 相 比 传感器 成 本 低 ， 市 
场 上 已 经 有 较 多 的 产品 。 一 般 摄 像 头 收集 的 数据 将 通过 计算 机 视 沉 和 深度 学 习 模 型 进行 处 理 。 但 是 基于 摄像 头 的 计算 机 视觉 算法 易 受 光照 、 水 面 、 遮 挡 等 因素 的 影响 ， 准 确 性 还 有 待 提高 。 


(3) GPS 定位 系统 


GPS 定 位 系统 用 于 进行 实时 高 精度 定位 ， 比 如 获取 经 纬度 坐标 、 速 度 、 加 速度 等 位 置信 息 ， 一 般 包 括 全 球 卫 星 定位 系统 、 轮 速 计 、 里 程 计 等 。 定 位 技术 是 也 是 自动 驾驶 的 核心 技术 ， 因 为 有 了 位 置信 息 
就 可 以 利用 丰富 的 地 理 、 地 图 等 信息 ， 可 以 使 用 基于 位 置 的 服务 ， 为 后 续 决 策 和 控制 提供 大 量 丰 富 具 有 价值 的 信息 。 


(4) 车 内 传感器 


通过 整 车 网 络 接口 监测 车 速 、 轮 速 、 档 位 等 监测 信息 ， 挂 载 在 车 辆 内 部 。 


8.3 ”深度 增强 学 习 


增强 学 习 (Reinforcement Learning, RL) 又 称 为 强化 学 习 ， 是 近年 来 人 工 智能 、 自 动 控 制 领域 较为 火热 的 一 个 研究 方向 。 

由 于 实际 车 辆 上 路 实验 成 本 较 高 ， 因 此 也 可 以 通过 模拟 器 进行 一 定 的 实验 模拟 ， 其 中 有 些 公司 可 能 会 采用 增强 学 习 技术 ， 进 行 模拟 和 模型 训练 。 
1. 增 强 学 习 

根据 维基 百科 ， 增 强 学 习 的 定义 如 下 : 

增强 学 习 是 机 器 学 习 中 的 一 个 领域 ， 强 调 如 何 基 于 环境 而 行动 ， 以 取得 最 大 化 的 预期 利益 。 


增强 学 习 的 架构 如 图 8-3 所 示 。 
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图 8-3 ”增强 学 习 架 构 


图 8-3 所 示 的 增强 学 习 中 的 各 个 组 件 、 算 法 称 为 Agent， 它 与 环境 发 生 交 互 ，Agent 从 环境 中 获取 状态 (State) ， 并 决定 自己 要 做 出 的 动作 (Action) 。 环 境 会 根据 Action 给 Agent 予 以 奖励 
(Reward) 。 奖 励 有 正 向 (好 的 奖励 ) 和 反 向 (惩罚 ) 。 通 过 这 些 信息 ，Agent 可 以 不 断 学 习 到 应 该 如 何 与 环境 进行 交互 才能 达到 最 优 的 反馈 。 


2.Q-learning 


Q-learning 的 维基 定义 : 是 一 种 无 模型 的 增强 学 习 技术 。 算 法 通过 定义 Reward (初始 化 的 奖励 值 ) 矩阵 和 当前 状态 及 行为 作为 输入 ， 不 断 进 代 求 解 Q 动 作 效 用 函数 (Action-Utility Function) ， 用 于 
评价 在 特定 状态 下 采取 某 个 动作 的 优 务 答 阵 ， 算 法 收敛 后 ， 我 们 就 可 以 使 用 Q 和 矩 阵 将 输入 状态 选择 为 下 一 步 最 优 动作 。 


下 面 将 介绍 Q-Learning 算 法 ， 如 图 8-4 所 示 ， 算 法 中 涉及 的 变量 具体 如 下 。 
-Q: QFE 
- R: Reward 和 矩阵 


-S: 状态 


算法 1.1 


(Q-learning 算法 ) 


Step 1 BRAK y 和 reward HEH R. 


Step 2 
Step 3 


3.1 
9.2 


Q = 0. 


For each episode: 


随机 选择 一 个 初始 的 状态 5. 

若 未 达到 目标 状态 , MAU FILA 

1) 在 当前 状态 s 的 所 有 可 能 行为 中 选取 一 个 行为 a 
2) 利用 选 定 的 行为 a, 得 到 下 一 个 状态 3. 

) 

j 


按照 (1.1) 计算 Q(s,a). 
A 


3 


( 
( 
( 
( 


图 8-4 QLearning# k 


Q-Learning 的 核心 计算 公式 如 下 所 示 : 


Os, a) - 


R(s, a) + y : max{Q(s, a)! (8.1) 


Q 和 矩阵 只 是 一 个 近似 ， 而 且 在 早期 阶段 的 学 习 中 误差 较 大 。 但 是 随 着 每 一 轮 的 进 代 ， 该 近似 会 越 来 越 准确 。 如 果 更 新 的 轮 数 足够 长 ， 那 么 Q 函 数 就 将 收敛 并 能 代表 真实 的 Q 值 。 


Q-Learning 算 法 的 具体 实例 可 以 参考 教程 []。 


3. 深 度 增强 学 习 


Q-Learning 使 用 矩阵 来 表示 和 存储 Q 值 ， 由 于 很 多 实际 问题 的 状态 太 多 ， 因 此 很 多 情况 下 这 种 方式 并 不 可 行 。 比 较 直 观 的 想法 是 通过 一 个 函数 ， 对 价值 函数 进行 近似 表示 (Value Function 


Approximation) 。 如 果 使 用 


深度 学 习 网 络 近 似 表示 Q 函 数 ， 那 么 这 种 方式 就 被 称 作 DQN (Deep Q-learning) 方法 进行 增强 学 习 ， 深 度 增强 学 习 。 


Deep Q-learning 是 一 种 基于 Q 遂 数 的 增强 学 习 算 法 。 在 自动 驾驶 领域 ,已 经 有 很 多 公司 开始 进行 尝试 增强 学 习 实验 。 在 TORCS、 优 达 学 城 等 经 典 的 自动 驾驶 模拟 器 中 ， 有 些 相关 工作 正在 使 用 增强 学 


习 进行 模拟 。 优 点 是 通过 模拟 
的 任务 是 以 最 快 的 速度 到 达 终 
为 状态 输入 ， 也 可 以 将 环境 状 


器 可 以 加 速 路 况 实验 的 模拟 并 降低 实验 成 本 ， 劣 势 是 模拟 器 游戏 图 像 比 真实 世界 图 像 更 容易 识别 ， 两 者 之 间 存 在 差别 。 例 如 ，TORCS 是 一 个 赛车 模拟 器 ， 如 图 8-5 所 示 。 玩 家 
点 。 昌 然 TORCS 中 的 任务 和 真实 的 自动 驾驶 任务 还 有 很 大 的 区 别 ， 但 是 其 中 的 算法 更 容易 进行 实验 验证 ， 可 以 为 模拟 实验 提供 一 定 的 补充 。 增 强 学 习 可 以 将 车 辆 摄像 头 图 像 作 
态 作为 输入 (速度 与 车 辆 的 距离 ， 与 障碍 物 的 距离 等 ) 。 
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图 8-5 TORCS 模 拟 器 界面 
在 自动 驾驶 模拟 环境 中 使 用 增强 学 习 算 法 可 以 以 较 低 的 代价 进行 验证 ， 并 取得 了 一 定 的 实验 成 果 。 若 要 增强 学 习 真 正 能 够 在 自动 驾驶 的 场景 下 应 用 ， 那 么 还 需要 进行 很 多 改进 。 


[1] 参考 教程 网 址 : http://mnemstudio.org/path-finding-q-learning-tutorial.htm. 


在 自动 驾驶 应 用 场景 中 ， 行 车 检测 是 一 个 常见 的 应 用 场景 和 技术 点 。 行 车 检测 问题 的 输入 是 摄像 头 的 视频 输入 ， 输 出 是 视频 中 检测 出 车 辆 及 其 位 置 的 边界 框 。 这 个 问题 整体 可 以 对 应 到 计算 机 视觉 中 的 
物体 检测 问题 ， 可 以 利用 其 中 的 解决 方案 进行 解决 。 


在 传统 的 计算 机 视觉 领域 中 ， 物 体检 测 是 一 个 重要 的 研究 方向 。 物 体检 测 对 于 人 的 视觉 系统 来 说 并 不 困难 ， 人 感知 图 片 中 的 不 同 纹理 、 颜 色 、 边 缘 模 块 ， 很 容易 就 能 定位 出 目标 物体 ， 但 对 于 计算 机 来 
说 ， 面 对 的 是 图 像 的 像素 矩阵 ， 很 难 从 图 像 中 直接 得 到 车 辆 这 样 的 抽象 概念 并 定位 其 位 置 ， 再 加 上 图 像 的 噪声 、 物 体 姿态 、 光 照 等 因素 混杂 在 一 起 ， 使 得 计算 机 进行 物体 检测 更 加 困难 。 


基于 Haar 特 征 和 Adaboost 的 检测 方法 在 2001 年 提出 时 就 引起 了 较 大 的 反响 ， 其 第 一 次 把 检测 做 到 实时 ， 并 且 对 于 当时 的 技术 水 平 来 说 ， 检 测 性 能 非常 不 错 。2012 年 之 前 的 物体 检测 算法 ， 可 总 结 为 是 
三 个 方面 的 不 断 创新 与 优化 : 特征 的 设计 更 新 、 检 测 窗口 的 选择 、 分 类 器 的 设计 更 新 。 


随 着 深度 学 习 技 术 的 发 展 ， 在 物体 检测 领域 ， 深 度 学 习 算法 取得 了 不 错 的 效果 。 从 使 用 的 技术 上 来 说 ， 其 大 致 可 以 分 为 基于 回归 模型 和 基于 分 类 模型 的 物体 检测 。 

(1) 深度 学 习 基 于 分 类 的 物体 检测 

基于 分 类 方法 的 处 理 过程 是 ， 图 像 被 分 解 成 多 个 小 区 域 ， 每 个 小 区 域 将 运行 一 个 分 类 算法 以 确定 区 域 是 否 包 含 待 检测 物体 ， 之 后 再 在 这 个 小 区 域 的 周围 确认 物体 的 边界 框 。 
代表 算法 : RCNN、Fast-RCNN、Faster-RCNN。 

(2) 深度 学 习 基 于 回归 的 物体 检测 


将 问题 建 模 为 回归 问题 ， 通 过 深度 神经 网 络 直接 预测 出 边界 框 和 所 属 类 别 的 置信 和 度 。 


代表 算法 : SSD、YOLO 模 型 。 


物体 检测 方面 有 两 个 较 大 的 公开 测试 集 与 竞赛 ，PASCAL VOC 和 COCO。 传 统 的 物体 检测 方法 因为 其 特征 比较 弱 ， 所 以 每 类 都 需要 训练 一 个 检测 器 。 如 果 作为 消费 级 产品 ， 那 么 时 间 消 耗 和 精度 性 能 会 
使 得 传统 方法 检测 的 应 用 场景 不 是 很 多 。 在 一 些 公开 的 研究 结果 中 ， 我 们 可 以 看 到 传统 的 检测 方法 和 深度 学 习 的 检测 方法 在 两 个 数据 集 上 准确 度 的 差别 比较 大 。 


传统 检测 方法 随 着 数据 量 的 增 大 ， 检 测 性 能 会 趋 于 饱和 ， 也 就 是 说 随 着 数据 量 的 增 大 ， 检 测 性 能 会 逐渐 提高 ， 达 到 一 定 程度 后 ， 数 据 量 的 提高 带 来 的 性 能 增益 非常 少 。 而 深度 学 习 的 方法 则 不 同 ， 当 符 
合 实际 场景 分 布 的 数据 越 来 越 多 时 ， 其 检测 性 能 会 越 来 越 好 。 


接 下 来 我 们 将 以 YOLO 为 例 ， 将 物体 检测 技术 应 用 到 自动 笔 驶 的 行车 检测 问题 中 。 


8.4.2 YOLO 模 型 


我 们 可 以 在 YOLO 的 官方 网 站 上 看 到 不 同 版 本 的 YOLO 模 型 配置 和 Pre-trained Model， 同 时 官网 也 提供 了 框架 Darknet 供 用 户 使 用 和 重新 训练 新 的 模型 。 
官方 网 站 : https://pjreddie.com/darknet/yolo/ 


实例 中 我 们 将 选用 tiny YOLO v1 模型 。Tiny YOLO v1 由 9 个 卷 积 层 和 3 个 全 连通 层 组 成 。 每 个 卷 积 层 都 由 卷 积 层 、LeakyReLU 和 Max Pooling 操 作 组 成 。 前 9 个 卷 积 层 可 以 被 理解 为 特征 提取 器 ， 而 最 后 
三 个 全 连接 层 可 以 被 理解 为 预测 边界 框 的 “回归 器 ”。 


参考 论文 : You Only Look Once: Unified, Real-Time Object Detection 
参考 实例 : https://github.com/xslittlegrass/CarND-Vehicle-Detection 
模型 总 共有 45，089，374 个 参数 ， 实 例 选用 Keras 1.2.2 作 为 深度 学 习 框 架 。 
代码 清单 8-1 展 示 了 构建 YOLO 模 型 网 络 结构 的 代码 。 


代码 清单 8-1 构建 YOLO 模 型 网 络 结构 





import keras 
= 


from keras.models import Sequential 
from keras.layers.convolutional import Convolution2D, MaxPooling2D 


= 











rom keras.layers.advanced_ activations import LeakyReLU 
from keras.layers.core import Flatten, Dense, Activation, Reshape 
from utils import load weights, Box, yolo net out to car boxes, draw box 
def construct yolo model () : 
keras.backend.set_ image dim ordering ('th') 

model = Sequential () 
odel.add(Convolution2D(16, 3, 3,input_shape=(3, 448,448) ,border mode= 'same', subsample=(1,1))) 
odel .add (LeakyReLU (alpha=0.1) ) 
odel .add (MaxPooling2D (pool size=(2, 2))) 
odel .add (Convolution2D (32,3,3 ,border mode='same') ) 
odel .add (LeakyReLU (alpha=0.1) ) 
odel.add(MaxPooling2D (pool size=(2, 2),border mode='valid") ) 
odel .add (Convolut 
odel .add (LeakyReLU (alpha=0.1) ) 
odel .add (MaxPooling2D (pool size=(2, 2),border mode='valid') ) 
odel .add (Convolut 
odel .add (LeakyReLU (alpha=0.1) ) 
odel.add(MaxPooling2D (pool size=(2, 2),border mode='valid"') ) 
odel .add (Convolut 
odel .add (LeakyReLU (alpha=0.1) ) 
odel.add(MaxPooling2D (pool size=(2, 2),border mode='valid"') ) 
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ion2D (64,3,3 ,border_mode='same') ) 








ion2D (128,3,3 ,border mode='same") ) 








ion2D (256, 3,3 border mode='same ') ) 














odel.add(Convolution2D(512,3,3 ,border mode='same')) 
odel .add (LeakyReLU (alpha=0.1) ) = 

odel .add(MaxPooling2D (pool size=(2, 2),border mode='valid') ) 
odel .add (Convolution2D (1024,3,3 ,border mode='same') ) 

odel .add (LeakyReLU (alpha=0.1) ) 

odel .add(Convolution2D (1024,3,3 ,border mode='same') ) 

odel .add (LeakyReLU (alpha=0.1) ) 

odel .add (Convolution2D(1024,3,3 ,border mode='same"') ) 

odel .add (LeakyReLU (alpha=0.1) ) 

odel.add (Flatten () ) 

odel .add (Dense (256) ) 

odel .add (Dense (4096) ) 

odel .add (LeakyReLU (alpha=0.1) ) 

odel .add (Dense (1470) ) 

odel.summary () 

return model 
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模型 的 预测 结果 


网 络 的 输入 是 形状 为 (3，448，448) 的 图 像 ， 其 输出 是 一 个 1470 维 度 的 向 量 ， 它 包含 预测 边界 框 、 物 体 类 别 信息 。 输 出 向 量 信息 的 组 织 方式 如 图 8-6 所 示 。 


confidence box coordinates 





图 8-6 YOLO 模 型 输出 向 量 


由 图 8-6 可 见 ，1470 矢 量 输 出 被 分 成 了 三 个 部 分 ,分别 给 出 了 所 属 类 别 概率 、 置 信和 度 和 边框 坐标 。 这 三 个 部 分 又 进一步 划分 为 49 个 小 区 域 ， 与 每 个 单元 的 预测 相对 应 。 在 后 续 处 理 步 骤 中 ， 将 从 网 络 中 
提取 1470 个 向 量 ， 将 高 于 阐 值 的 边框 和 物体 类 别 选择 出 来 作为 预测 结果 。 


8.4.3 ”车辆 图 像 数据 探索 


测试 数据 选用 一 段 录制 的 车 辆 行进 中 的 车 前 方 视频 ， 截 取 其 中 一 张 图 片 进行 可 视 化 ， 如 图 8-7 所 示 。 





图 8-7 车 辆 前 置 摄像 头 图 像 


可 以 去 除 图 像 中 的 上 部 和 相对 重复 的 区 域 ， 同 时 将 图 像 转换 为 模型 所 需要 的 输入 格式 。 将 数据 进行 一 定 的 预 处 理 后 进行 可 视 化 呈现 ， 如 图 8-8 所 示 。 
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图 8-8 ”图像 预 处 理 结果 


代码 清单 8-2” 预 处 理 及 可 视 化 图 像 





def visualize images () : 
imagePath = './test_images/testl.jpg' 
image = plt.imread (imagePath) 
# 去 除 顶部 和 底部 图 片 
image crop = image[300:650,500:,:] 
# 将 图 片 转换 为 模型 所 需要 的 输入 格式 
resized = cv2.resize (image crop, (448,448)) 
f1, (axl1,ax22,ax33) = plt.subplots (1,3,figsize=(16,6)) 
ax11.imshow (image) 
ax22.imshow (image crop) 
ax33.imshow (resized) 
pylab.show () 
return resized 


























实例 通过 迁移 学 习 加 载 使 用 Pre-trained YOLO 模 型 进行 行车 检测 。 具 体 做 法 是 将 pre-trained 模 型 中 的 权重 加 载 进 之 前 构造 的 模型 结构 中 。 官 网 提供 的 权重 ， 可 以 通过 脚本 解析 成 Keras 能 够 加 载 的 格 
具 


式 ， 具 体 见 代码 清单 8-3 和 代码 清单 8-4: 


8.4.6 


8.4.7 


边框 绘 


代码 清单 8-3 加载 YOLO 模 型 权重 


def 





load model weights (model) : 
# load weight from pretrained weights 
load weights (model, ' 

















for yolo The weight file can be downloaded 


./yolo-tiny.weights') 











代码 清单 8-4 ”加 载 模型 权重 的 具体 逻辑 





Lu. 


def 





load weights (model, yol 

data = np.fromfile (yol 

data = data[4:] 

index = 0 

for layer in model.layers: 
shape = [w.shape for w in 

if shape != []: 
kshape,bshape = shape 
bia = data[index:indextnp.prod (bshape) ] 
index += np.prod(bshape) 
ker = data[index:indextnp.prod(kshape) ] 
index += np.prod(kshape) 
layer.set weights ([ker,bia]) 


le): 
t file,np.float32) 


o weight 
o weigh 





























bos 

















layer.get weights () ] 








. reshape (bshape) 








. reshape (kshape) 





模型 推断 


实例 以 一 张 图 片 为 例 进行 预测 ， 具 体 见 代 码 清单 8-5: 


代码 清单 8-5 ”使 用 模型 进行 在 线 推断 ， 预 测 出 车 辆 区 域 





def 





inference image (model, resized): 

# 转 置 

tch = np.transpose (resized, (2,0,1)) 
# 将 像素 值 变换 到 -1 ~ 1 

batch = 2x (batch/255.) - 1 

# 将 一 张 图 片 转换 为 数组 

batch = np.expand dims (batch, axis=0) 
out = model.predict (batch) 

return out 
































绘制 检测 结果 


将 代码 清单 8-5 中 模型 预测 的 结果 转换 为 边框 坐标 。 同 时 基于 阅 值 进行 预测 ， 具 体 见 代码 清单 8-6: 


代码 清单 8-6 ”将 模型 预测 的 结果 转换 为 边框 坐标 


th = 0.17 
boxes = yolo net out to car boxes(out[0], threshold = th) 





定义 Box 边 框 对 象 ， 后 续 判 断 是 否 保留 预测 的 边框 结果 通过 c (置信 和 度 ， 衡 量 是 否 达 到 已 经 被 检测 标准 的 辣 值 ) ， 


代码 清单 8-7 ”定义 Box 类 ， 人 存储 边框 信息 和 物体 检测 类 别 等 信息 































































































class Box: 
def init (self): 
F. X, mAT 
self.x, f.y = float (), float () 
# 边框 宽度 和 长 度 
self.w, self.h = float(), float () 
# 置 a 
self Float () 
# 所 局 半 别 概率 
self.prob = float() 














通过 yolo_net_out to_car_boxes 方 法 ， 将 预测 出 的 Vector 转换 为 Box 对 象 信 息 。 其 中 的 核心 逻辑 是 
上 到 图 像 上 ， 具 体 见 代码 清单 8-8: 


代码 清单 8-8 置信 和 度 大 于 立 值 边框 则 进行 保留 





class_num = 6 # YOLO 模 型 可 以 预测 多 种 类 别 , 6 为 车 辆 所 属 类 别 
p = probs[grid, :] * bx.c 
if p[class num] >= threshold: 





bx.prob = p[class num] 
boxes . append (bx) 


将 结果 绘制 在 图 像 上 ， 具 体 见 代码 清单 8-9: 


代码 清单 8-9 绘制 结果 





























def visualize image car detection (boxes) : 
imagePath : = './test_images/test1l.jpg' 
image = plt.imread (imagePath) 
f, (axl,ax2) = plt.subplots(1,2,figsize=(16, 6) ) 
ax1.imshow (image) 
ax2.imshow (draw box (boxes, plt.imread (imagePath) , 
[ [500,1280], [300,650] ])) 
pylab. show () 





draw_box 将 坐标 转换 为 OpenCV rectangle 方 法 需要 的 坐标 形式 ， 并 将 图 片 通过 OpenCV 进 


代码 清单 8-10 ”将 边框 绘制 在 图 像 上 


def 





draw box (boxes, im, crop dim): 
imgcv = im 


[xmin, xmax] = crop dim[0] 


解析 模型 预 


from https://pjreddie.com/darknet/yolo/ 


在 图 像 上 绘制 车 辆 位 置 通过 对 象 中 的 坐标 信息 ， 具 体 见 代码 清单 8-7: 


测 输 出 向 量 中 的 坐标 、 类 别 和 置信 和 度 信息 。 如 果 置 信和 度 大 于 阅 值 ， 则 保留 ， 最 终 将 保留 的 


行 处 理 ， 具 体 见 代码 清单 8-10: 


[ymin, ymax] = crop dim[1] 
for b in boxes: 
h, w _ = imgcv. shape 



























































left = int ((b.x - b.w/2.) * w) 
right = int ((b.x + b.w/2.) * w) 
top = int ((b.y - b.h/2.) * h) 
bot = int ((b.y + b.h/2.) * h) 
left = int (left* (xmax-xmin) /w + xmin) 
right = int (right* (xmax-xmin)/w + xmin) 
top = int (top* (ymax-ymin)/h + ymin) 
bot = int (bot* (ymax-ymin)/h + ymin) 
if left < 0 : left = 0 
if right > w - 1: right = w - 
if top <0 ; top = 0 
if bot & sh, = als bot =h - 

50) 


thick = int((h + w) // 150 
cv2.rectangle(imgcev, (left, top), (right, bot), (255,0,0), thick) 
return imgcv 





绘制 边框 结果 如 图 8-9 所 示 。 
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图 8-9 YOLO 行 车 检测 结果 


8.5” 端 到 端 自动 驾驶 
近年 来 ， 深 度 学 习 技术 在 自动 驾驶 领域 的 应 用 越 来 越 多 。 比 较 具有 代表 性 的 应 用 包括 Mobileye、 英 伟 达 的 DRIVE 解 决 方案 和 Commaai 的 方法 ， 后 两 者 都 有 采用 端 到 庙 (End to End) 的 方法 ， 以 摄像 
头 的 原始 图 像 作为 输入 ， 通 过 之 前 使 用 的 数据 训练 出 来 的 模型 直接 预测 输出 车 辆 的 方向 (或 速度 ) 。 


本 节 实 例 选 取 方 向 控制 (Steering Control) 作为 深度 学 习 在 End to End 自 动 驾 驶 中 解决 的 问题 。 采 用 的 数据 集 为 Tesla 行 驶 数据 集中 前 置 相机 所 拍摄 的 路 况 图 像 ， 训 练 英 伟 达 深 度 学 习 模 型 ， 利 用 该 模 
型 对 车 辆 转向 角度 进行 预测 。 


实例 参考 : https://github.com/lexfridman/deeptesla, 
麻 省 理工 学 院 曾 开 过 一 门 课 程 MIT 6.8094: 自动 驾驶 汽车 深度 学 习 。 


官网 链接 : https://selfdrivingcars.mit.edu/deeptesla/, 


8.5.1 ” 英 伟 达 End to End 模 型 

英 伟 达 曾 发 布 过 自动 驾驶 的 论文 ， 模 型 通过 汽车 的 前 置 摄像 机 来 捕获 车 辆 的 行驶 环境 ， 通 过 车 辆 控制 器 同步 记录 车 辆 行驶 的 方向 。 利 用 卷 积 神经 网 络 将 摄像 机 捕获 的 视频 的 每 帧 图 片 与 每 帧 图 片 的 转向 
角度 (Steering Angle) 对 应 起 来 。 

参考 论文 : End to End Learning for Self-Driving Cars。 

End to End 的 好 处 : 通过 缩减 人 工 预 处 理 和 后 续 处 理 ， 尽 可 能 使 模型 从 原始 输入 到 最 终 输 出 ， 为 模型 提供 更 多 的 空间 使 其 可 以 根据 数据 自动 调节 ， 从 而 减少 基于 规则 的 复杂 性 。 

劣势 是 可 解释 性 较 差 ， 准 确 度 不 容易 控制 。 


图 8-10 展 示 了 英 伟 达 自 动 驾 驶 的 整体 架构 ， 通 过 摄像 头 和 传感器 捕 扣 外 接 环境 和 方向 旋转 角度 数据 ， 训 | 练 CNN 深 度 学 习 模 型 。 之 后 将 训练 好 的 模型 对 新 的 摄像 头 输入 进行 方向 盘旋 转角 度 的 预测 。 


预期 转向 命令 
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图 8-10 End to End 深 度 学 习 自 动 驾驶 训练 与 在 线 推 断 


英 伟 达 模 型 


实例 选取 的 是 英 伟 达 模型 ， 模 型 由 9 层 组 成 ， 包 括 标 准 化 层 、5 个 卷 积 层 和 3 个 全 连接 层 ， 如 图 8-11 所 示 。 
标准 化 层 对 输入 数据 进行 规范 化 处 理 。 输 入 尺寸 为 (200，66，3) ， 宽 度 为 200， 高 度 为 66，3 通 道 ( 红 - 绿 - 监 ) 。 


卷 积 层 被 设计 为 特征 提取 功能 。 论 文中 提 到 卷 积 层 的 设置 和 配置 均 是 根据 经 验 和 实验 而 来 。 前 三 个 卷 积 层 中 采用 2x2 步 长 的 ?x 5 卷 积 核 ， 后 两 个 卷 积 层 采 用 1x1 步 长 的 3x 3 卷 积 核 。5 个 卷 积 层 之 后 是 3 个 
连接 层 ， 作 为 对 最 终结 果 的 输出 函数 。 可 以 看 到 ， 在 端 到 端的 学 习 中 ， 特 征 提 取 层 和 结果 输出 层 之 间 也 有 着 紧密 的 联系 。 


代码 清单 8-11 展 示 了 如 何 构建 英 伟 达 模型 


代码 清单 8-11 ”构建 英 伟 达 模型 


def nvidia model (): 
import tensorflow as tf 
import keras 
from keras.models import 
from keras.layers import 
rom keras.layers import 
rom keras import losses 
model = Sequential 
model.add (Lambda (lambda x: x/127.5 - 1., 
input shape= (img height, img width, img channels) ) ) 
model.add(Conv2D(24, kernel size=(5, 5), strides=(2,2), padding='valid', 
kernel_initializer="he_normal', activation='elu')) 
model.add(Conv2D(36, kernel size=(5 ), strides=(2,2), padding='valid', 
lA 
) 








Sequential 
Dense, Activation, Flatten, Lambda 
Conv2D, Dropout 
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model .add(Conv2D (48, kernel size=(5, 
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5), strides=(2,2), padding='valid', 
', activation='elu') ) 

3), strides=(1,1), padding='valid', 
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model.add(Conv2D(64, kernel size=(3 
kernel initial izer="he - normal 
model.add(Conv2D(64, kernel size=(3 
kernel initializer='"he normal 
model.add (Flatten () ) 
model.add(Dense (1164, kernel initializer='he normal', 
activation='elu')) — E 
model.add (Dense (100, kernel initializer='he normal', 
activation='elu')) 

model.add (Dense (50, kernel initializer='he normal', 
activation='elu')) 
model.add (Dense (10, kernel initializer='he normal', 
activation='elu')) 
model.add (Dense (1, kernel initializer='he normal')) 
model.compile (loss='mse', optimizer='Adadelta') 
return model 





, activation='elu')) 
), strides=(1,1), padding='valid', 
, activation='elu')) 
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图 8-11 ” 英 伟 达 DAVE2 模 型 结构 


8.5.2 ”评估 指标 


评估 指标 为 误差 平方 求 和 (MSE) ， 然 后 求 其 平均 什 。 
m \ 2 


MSE =+5 (f -Y 
M i=] 


l 


其 中 n 是 训练 样本 的 数量 ， 了 是 系统 预测 方向 ， Yi 是 司机 实际 转向 ， 也 就 是 样本 的 真实 值 。 


8.5.3 ”数据 分 析 


本 实例 的 数据 来 自 MIT DeepTesla 公 开 数 据 集 ， 主 要 包括 Tesla 的 前 置 相机 录制 的 视频 和 车 辆 的 转向 控制 信号 。 


原始 数据 为 10 段 mkv 视 频 ， 以 及 其 与 每 段 视频 的 转向 控制 信号 (csv 文 件 ) 。 
数据 格式 具体 如 下 。 

- 前 置 相机 记录 的 视频 : mkv 格 式 

. 行驶 过 程 中 的 控制 信号 : csv 格 式 

csv 文 件 记 录 了 视频 中 每 帧 图 片 对 应 的 方向 转角 。csv 文 件 总 共有 2700x10=27，000 条 记录 ，。 
接 下 来 将 通过 多 个 步骤 进行 数据 的 探索 与 分 析 。 

1) 转向 控制 数据 分 布 


选取 第 一 段 视频 ， 转 向 角度 的 分 布 情况 见 图 8-12。 
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图 8-12 ”转向 控制 数据 分 布 


代码 清单 8-12 展 示 了 如 何 绘制 转向 分 布 : 


代码 清单 8-12 ”绘制 转向 分 布 





def steering distribution () : 
wheel sig = pd.read_csv(params.data dir + '/epoch01 steering.csv') 





(8.2 ) 





wheel sig.head () 
wheel sig.wheel.hist (bins=50) 


2) 数据 变化 幅度 
抽取 第 一 段 视频 ， 方 向 转角 与 时 间 的 对 应 关系 如 图 8-13 所 示 。 
代码 清单 8-13 展 示 了 如 何 绘制 转向 变化 幅度 : 


代码 清单 8-13 ”绘制 转向 变化 幅度 


def angel visualize(): 
wheel sig = pd.read_csv(params.data dir + '/epoch0l steering.csv') 
wheel sig.plot (x='frame', y='wheel') 
plt.show () 











图 8-13 ”数据 变换 幅度 


8.5.4” 读 入 视频 ， 并 处 理 图 像 


加 载 如 下 实例 ， 使 用 OpenCV 从 视频 中 提取 图 像 ， 以 及 与 其 对 应 的 转向 角度 并 返回 ， 具体 见 代 码 清单 8-14: 


代码 清单 8-14 ”提取 图 像 并 处 理 


imgs = [] 
wheels = [] 
epochs = [10] 
for epoch in epochs: 
vid path = utils.join dir(params.data dir, 
‘epoch{:0>2} front.mp4'. format (epoch) ) 
assert os.path.isfile(vid_path) 
frame count = frame count func (vid path) 
cap = cv2.VideoCapture (vid_path) 
for frame id in range(frame count): 
while True: 7 
# 通过 OpenCV 的 VideoCapture 进 行 视频 中 图 像 的 提取 
ret, img = cap.read() 
if not ret: 


break 
# 用 户 可 以 自 定义 对 图 像 的 处 理 、 扩 展 和 增强 等 操作 。 
img = a image convert.img preprocess (img, color mode, 
flip=False) 7 7 
imgs .append (img) 
csv path = os.path.join(data dir, 
"epoch{:0>2} steering.csv'. format (epoch) ) 
rows = pd.read_csv(csv_path) 


yy = rows['wheel'] .values 
wheels.extend (yy) 
cap.release () 
imgs = np.array (imgs) 
wheels = np.array (wheels) 
wheels = np.reshape (wheels, (len (wheels) ,1) ) 
return imgs, wheels 





85.5 ”深度 学 习 模 型 构建 与 训练 


通过 调用 Keras 中 的 fi 方法， 对 之 前 构建 的 模型 进行 训练 ， 并 返回 结果 ， 具 体 见 代码 清单 8-15 : 


代码 清单 8-15 ”训练 模型 


def training(model, X train RGB, y train RGB): 
RGB model = model 
time start = time.time() 
# Fit the model 
RGB history = RGB model.fit(X train RGB, y train RGB, epochs=30, 
batch _size=batch_ size) 
return RGB model, RGB history 





8.5.6 可视化 结果 


将 训练 过 程 中 的 Loss 误 差 进行 可 视 化 ， 具 体 见 代码 清单 8-16: 


代码 清单 8-16 可视化 训练 误 


def visualize model label (RGB history): 

rint (RGB history.history['loss']) 

lt. figure (figsize=(9, 6) ) 

-plot (RGB history.history['loss"]) 
.title('model loss") 

.ylabel ('Loss', fontsize=12) 

.Xlabel ('Epoch', fontsize=12) 
.legend(['train RGB'], loc='upper right') 
-grid() 

. show () 
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例如 ， 配 置 5 个 epoch 进 行 训练 ， 可 视 化 实例 的 结果 如 图 8-14 所 示 。 
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图 8-14 ”模型 训练 结果 


8.6 本章 小 结 


本 章 首先 介绍 了 自动 驾驶 的 背景 与 应 用 ， 以 及 自动 驾驶 的 分 级 ， 使 得 读者 对 整个 自动 驾驶 应 用 有 一 个 全 面 的 了 解 。 接 下 来 介绍 了 业界 构建 自动 驾驶 的 技术 流派 ， 基 于 规则 和 End to End 深 度 学 习 的 方 
式 。 由 于 本 章 的 主题 是 深度 学 习 ， 因 此 选用 深度 学 习 的 方式 进行 自动 驾驶 解决 方案 的 构建 。 由 于 增强 学 习 逐 步 受 到 业界 的 关注 ， 因 此 8.3 节 也 介绍 了 增强 学 习 技 术 及 其 与 自动 驾驶 的 联系 。 实 战 实例 选 取 行 车 
检测 和 End to End 自 动 驾 驶 两 大 技术 模块 进行 介绍 。 行 车 检测 可 以 对 应 到 计算 机 视觉 中 的 物体 检测 问题 ， 读 者 可 以 举一反三 进而 了 解 物体 检测 。End to End 自 动 驾 驶 介绍 了 从 数据 预 处 理 、 模 型 构建 、 模 型 
训练 到 最 终 模 型 算法 效果 评测 的 全 流程 。 读 者 可 以 通过 这 两 个 自动 驾驶 中 的 典型 问题 ， 对 自动 驾驶 技术 和 深度 学 习 技 术 的 结合 有 一 个 更 深入 的 了 解 。 


8.7 参考 资料 


- End to End Learning for Self-Driving Car 

- FEBEAAEZREAKMADAR RAR 

《一 篇 文章 读 懂 NHTSA 自 动 驾 驶 分 级 》 朱 玉龙 

《基于 深度 学 习 的 End-to-End》 Api 

《增强 学 习 在 无 人 驾驶 中 的 应 用 》 王 江 ， 吴 双 ， 刘 少 山 

o 《物体 检测 算法 全 概述 : 从 传统 检测 方法 到 深度 神经 网 络 框架 》 童 志 军 
- https://github.com/xslittlegrass/CarND-Vehicle-Detection 

- You Only Look Once: Unified, Real-Time Object Detection 


- &FSpark ROSH) Ap RAAB RRUF GS 
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第 9 草 可 视 化 


数据 分 析 处 理 的 最 终 目 的 就 是 对 问题 进行 说 明 ， 好 的 数据 可 视 化 方式 可 以 达到 事半功倍 的 效果 。 本 章 将 会 对 几 种 数据 可 视 化 方式 进行 讲解 与 说 明 。 


Matplotlib 是 Python 自 带 的 可 视 化 库 ， 其 使 用 简洁 方便 。 但 是 相 比 于 Javascript 的 方式 ， 其 所 呈现 的 图 表 在 交互 上 还 有 一 定 的 差距 。 


9.1 ”可视化 友 展 


数据 可 视 化 指 的 是 使 用 抽象 呈现 的 方式 表达 数据 变化 、 联 系 或 趋势 的 方法 。 数 据 可 视 化 是 综合 了 多 个 学 科 、 专 业 发 展 而 成 的 一 门 学 科 。 至 今 为 止 已 有 几 和 百年 的 历史 。 早 在 18 世 纪 80 年 代 ，William 
Playfair, Florence Nightingale 就 发明 了 折线 图 、 条 形 图 、 饼 图 、 玫 瑰 图 等 ， 如 图 9-1 所 示 。 


18 世 纪 是 科学 史 得 到 巨大 发 展 的 一 个 年 代 ， 工 业 革 命 、 牛 顿 理论 体系 的 提出 都 推动 着 数据 向 精准 化 、 定 量化 的 方向 发 展 ， 统 计 研究 的 需求 也 全 发 显著 ， 用 抽象 方法 表现 数据 的 方法 也 在 不 断 成 熟 ， 其 数 
据 展 示 方 式 已 经 接近 当代 的 数据 展示 方式 。 时 序 图 、 玫 瑰 图 等 可 视 化 形式 的 出 现 体 现 了 当时 数据 展示 方法 的 成 熟 。 


19 世 纪 上 半 叶 ， 受 到 基础 理论 的 推动 以 及 实际 工作 的 需要 ， 统 计 图 形 和 专题 绘图 出 现 了 爆炸 式 的 发 展 ， 目 前 一 直 在 用 的 所 有 形式 的 统计 图 形 都 是 在 此 时 发 明 的 。 地 质 学 家 William Smith 绘 制 了 第 一 副 
地 质 图 ， 其 被 称 为 “改变 世界 的 地 图 ”， 如 图 9-2a 所 示 。 
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a) William Simith 给 制 的 着 名 地 质 图 b) Luigi Perzzo 绘制 瑞典 人 口 变化 图 


图 9-2 19 世纪 数据 统计 图 


19 世 纪 后 半 叶 ， 数 据 可 视 化 迎 来 了 历史 上 第 一 个 黄金 时 代 。 随 着 应 用 范围 的 不 断 增多 、 社 会 、 商 业 领 域 的 不 断 深入 ， 欧 洲 开始 着 力 于 发 展 数据 分 析 技 术 。 统 计 学 理论 的 建立 是 约束 可 视 化 发 展 的 最 重要 
的 一 步 ， 数 据 统计 可 视 化 也 变 得 更 加 规范 。 在 此 期 间 几 乎 所 有 的 数据 表达 方式 都 已 经 出 现 ，Luigi Perozzo 展 示 了 三 维 数据 表达 方式 。 


20 世 纪 ， 随 着 计算 机 技术 的 发 展 ， 数 据 可 视 化 进入 了 另 一 个 黄金 时 代 ，20 世 纪 八 十 年 代 中 期 出 现 了 动态 、 交 互 式 的 数据 表达 方式 ， 其 允许 对 图 形 对 象 进行 即 时 和 直接 操纵 。 进 入 新 世纪 后 随 着 数据 量 的 
猛 增 ， 人 们 对 数据 可 视 化 的 依赖 程度 也 在 不 断 地 加 深 ,试图 以 传统 的 方式 展示 数据 已 经 是 不 大 可 能 的 ， 大 规模 的 动态 化 数据 需要 结合 数据 处 理 算法 才能 表达 出 更 有 效 的 信息 ， 因 此 如 今 的 数据 可 视 化 方法 是 
深度 结合 数据 挖掘 算法 的 方法 ， 其 是 数据 处 理 结果 的 一 种 展示 方式 。 


9.2 可视化 过 程 


数据 可 视 化 的 一 般 过 程 是 将 带 有 特定 分 析 目 的 的 数据 ， 进 行 数据 分 析 算 法 映射 后 ， 产 生 可 以 直观 理解 和 操纵 的 可 视 化 图 形 。 数 据 可 视 化 的 一 般 过 程 可 以 描述 为 : 分 析 - 处 理 - 绘 图 。 


对 于 分 析 过 程 而 言 ， 数 据 可 视 化 过 程 又 可 以 分 为 目标 分 析 和 数据 分 析 。 目 标 分 析 的 主要 作用 在 于 分 析 可 视 化 的 出 发 点 和 目标 是 什么 ， 需 要 展示 何 种 信息 、 以 何 种 方式 展示 、 想 验证 的 结论 是 什么 等 。 明 
确 目的 是 进行 可 视 化 的 第 一 步 ， 数 据 承 载 的 信息 多 种 多 样 ， 不 同 的 展示 方式 会 有 很 大 的 区 别 。 之 后 才能 根据 数据 确定 数据 处 理 方法 。 


之 后 则 需要 具体 分 析 数 据 ， 这 是 整个 数据 可 视 化 流程 、 甚 至 于 数据 分 析 非 常 重 要 的 一 步 。 数 据 分 析 和 可 视 化 的 目的 就 在 于 从 海量 的 数据 中 发 现 、 挖 掘 规律 并 将 这 种 规律 展示 出 来 。 数 据 多 样 性 造成 了 数 
据 展 示 方 法 的 多 样 性 。 


对 于 处 理 过 程 而 言 ， 数 据 可 视 化 过 程 就 是 针对 数据 进行 的 处 理 ， 其 包含 了 一 般 数 据 分 析 过 程 中 的 数据 清晰 任务 ， 如 处 理 脏 数据 、 过 滤 元 余数 据 等 ， 同 时 也 包含 了 对 于 数据 的 采样 、 降 维 等 操作 ， 这 是 为 
了 展示 高 维度 数据 所 必需 的 步骤。 


数据 的 绘图 过 程 就 是 将 前 面 所 得 到 的 一 系列 数据 ， 通 过 静态 、 动 态 的 二 维 、 三 维 图 形 进行 展示 。 


9.3 Matplotlib 


Matplotlib 是 Python 之 中 常用 的 用 于 绘图 的 库 ， 其 在 语法 和 架构 上 都 参考 了 Matlab。 其 可 以 绘制 常用 的 2D、 简 易 的 3D 图 形 ， 同 时 还 具有 很 多 扩展 形式 ， 其 语法 比较 简洁 ， 如 图 9-3 所 示 。 


In [2]: | “matplotlib inline 
import numpy as np 
import matplotlib. pyplot as plt 


In [3]: |x = np. linspace(0, 4#np.pi, 1000) 
y= np. sin(x) 


In [4]: | plt.plot(x, y) 


Outl4]: [<matplotlib. lines. Line?D at 0x1a665d3f860> | 
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图 9-3 ”Matplotlib 绘 制图 形 


这 里 所 用 的 交互 式 环境 是 jupytef-notebook， 其 是 一 个 交互 式 的 运行 环境 ， 不 仅仅 支持 Python 语言 。 对 于 代码 实践 来 说 ， 其 是 一 种 简洁 有 效 的 方式 。 


Matplotlib 可 以 以 简单 的 方式 来 实现 图 形 的 绘制 ，pyplot 是 Matplotlib 模 仿 Matlab 的 API 所 产生 的 一 套 绘图 负数 ， 而 其 可 以 完成 大 部 分 图 形 的 绘制 工作 。 当 然 可 以 利用 API 对 图 形 进行 修改 ， 以 使 得 图 形 
样式 更 加 符合 审美 要 求 ， 具 体 见 代码 清单 9-1 : 


代码 清单 9-1 图形 绘制 和 风格 选择 





import numpy as np 
import matplotlib.pyplot as plt 


















































import matplotlib as mpl 

# 设 置 图 片 风格 

mpl.style.use ('seaborn-darkgrid') 
HEX Mg 

x = np.linspace (0, 4*np.pi, 100) 
yl np.sin (x) 


y2 = np.sin (x+1) 
= np.sin(x+2) 



































y3 

# 绘 图 

plt.plot (x, yl, color="#009900", lw=6, alpha=0.6) 
plt.plot (x, y2, color="#990000", lw=6, alpha=0.6) 
plt.plot (x, y3, color="#000099", lw=6, alpha=0.6). 
# 展 示 

plt.show () 











绘图 结果 如 图 9-4 所 示 。 
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图 9-4 绘图 结果 


Matplotlib 提 供 了 很 多 强大 的 图 表 API 用 于 支持 不 同类 型 的 图 表 可 视 化 方式 ， 如 图 9-5 所 示 。 
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图 9-5 ”JMatplotlib 绘 制 的 不 同类 型 的 图 表 
由 图 9-5 可 以 看 到 ，Matplotlib 中 存在 很 多 现 有 的 图 表 ， 可 以 满足 多 方面 的 数据 展示 需求 。 
9.4 ECharts 
ECharts， 一 个 纯 Javascript 的 图 表 库 ， 可 以 流畅 地 运行 在 PC 和 移动 设备 上 上， 兼容 当前 绝 大 部 分 的 浏览 器 (IE8/9/10/11、Chrome、Firefox、Safari 等 ) ， 底 层 依赖 轻 量 级 的 Canvas 类 库 ZRender, 可 


提供 直观 、 生 动 、 可 交互 、 可 高 度 个 性 化 定制 的 数据 可 视 化 图 表 。ECharts 3 中 更 是 加 入 了 更 多 丰富 的 交互 功能 以 及 更 多 的 可 视 化 效果 ， 并 且 对 移动 端 做 了 深度 的 优化 。 


ECharts 提 供 了 常规 的 折线 图 、 柱 状 图 、 散 点 图 、 饼 图 、K 线 图 ， 用 于 统计 的 盒 形 图 ， 用 于 地 理 数 据 可 视 化 的 地 图 、 热 力图 、 线 图 ， 用 于 关系 数据 可 视 化 的 关系 图 、treemap， 用 于 多 维 数据 可 视 化 的 平 
行 坐标 ， 还 有 用 于 BI 的 漏斗 图 、 仪 表盘 等 ， 并 且 支 持 图 与 图 之 间 的 混搭 。 


利用 ECharts 进 行 数据 可 视 化 相 比 于 Matplotlib 方 法 来 说 ， 其 交互 效果 更 好 ， 具 有 更 广泛 的 适用 性 ， 同 时 其 代码 风格 相 比 于 Matplotlib 来 说 ， 并 未 表现 出 较 大 的 复杂 性 ， 具 体 见 代码 清单 9-2 : 


代码 清单 9- 2 ECharts 图 形 乡 会 制 





<!DOCTYPE html> 
<html> 
<head> 
<meta charset="utf-8"> 
<title>ECharts</title> 
<!-- 引入 echarts.js --> 
<script srce="echarts.min.js"></script> 
</head> 
<body> 
<!-- 为 ECharts 准 备 一 个 具备 大 小 《〈 宽 高 ) 的 Pom --> 
<div id="main" style="width: 600px;height : 400px; "></div> 
<script type="text/javascript"> 
// 基于 准备 好 的 Dom, 初始 化 ECharts 实 例 


var myChart = echarts.init (document .getElementById('main')); 


// 指定 图 表 的 配置 项 和 数据 
var option = { 
title: { 
text: 'ECharts 入 门 示 例 ' 









































tooltip: {}, 
legend: { 
data: [' 销 量 '] 





xAxis: { 
data: [" 衬 衫 " "羊毛 42" " 雪 纺 衫 "， "HES", " 高 跟 鞋 "， "袜子 "] 
}, 
yAxis: {}, 
series: [{ 
name: ' 销 量 '， 
type: 'bar', 


data: [5, 20, 36, 10, 10, 20] 
}] 
}; 


// 使 用 刚刚 指定 的 配置 项 和 数据 显示 图 表 
myChart.setOption (option) ; 
</script> 
</body> 
</html> 





图 形 绘制 结果 如 图 9-6 所 示 。 
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9-6 ECharts 绘 制图 形 





9.5 可视化 实践 


本 次 实践 以 文本 分 类 处 理 作为 实例 进行 分 析 。 正 如 第 五 章 所 说 的 ， 文 本 问题 是 数据 挖掘 、 数 据 分 析 中 非常 复杂 的 问题 。 对 于 文本 的 向 量化 而 言 ， 就 存在 多 种 不 同 的 方式 ， 同 时 对 自然 语言 处 理 的 方法 目 
前 还 处 于 逐渐 完善 的 过 程 中 。 


文本 分 类 数据 的 可 视 化 目标 就 在 于 展示 演示 不 同 因素 影响 下 的 文本 分 类 决策 。 


就 文本 数据 特征 来 说 ， 其 为 高 维 稀 踊 数 据 。 文 本 数据 预 处 理 过 程 中 需要 进行 分 词 处 理 ， 形 成 关于 整个 文本 的 分 词 数 据 ， 整 个 文本 的 基本 组 成 单位 为 “ 词 ”。 之 后 需要 建立 文本 词 频 统计 向 量 ，Python 的 
一 些 机 器 学 习 库 提供 了 相应 的 文本 向 量化 方式 ， 具 体 见 代码 清单 9-3: 


代码 清单 9-3 ”文本 向 量化 函数 





# 文 本 TfIdf 向 量化 

from sklearn.feature extraction.text import Tfid 
vectorizer = TfidfVectorizer () 
vectors = vectorizer.fit transform (datas) 























FVectorizer 









































sklearn 提 供 了 多 种 文本 向 量化 方式 ， 最 常用 的 是 Tfidf 向 量化 方式 ， 其 是 在 文本 词 频 统计 的 基础 上 进行 的 ， 所 得 结果 为 一 个 稀 踊 和 矩阵 。 之 所 以 用 稀 踊 和 矩阵 作为 向 量化 表示 方式 ， 是 因为 在 单一 文章 中 不 太 
可 能 包含 单词 表 中 所 有 的 词 ， 因 此 文本 向 量 的 大 部 分 位 置 应 为 0， 这 是 典型 的 稀疏 向 量 。 


这 个 向 量 是 无 法 进行 可 视 化 的 ， 而 高 维度 向 量 进行 可 视 化 的 方式 主要 依赖 于 数据 降 维 ， 在 降 维 方法 中 ， 应 用 于 文本 的 降 维 方法 有 LDA 方 法 ， 这 是 对 稀 琉 数据 进行 降 维 的 一 种 有 效 的 方法 ， 因 此 可 以 对 文 
本 向 量化 的 数据 进行 降 维 ， 具 体 见 代码 清单 9-4: 


代码 清单 9-4 ”LDA 降 维 


from sklearn.decomposition import LatentDirichletAllocation 

lda = LatentDirichletAllocation(n components=n topic, max iter=5, 
learning method='online', 7 

learning offset=50., 

random state=0) 



































# 用 LDA 方 法 降 维 数据 


dr vectros = lda.fit transform(vectors) 

















这 个 过 程 将 近 万 维 的 数据 降 为 n_topic 个 维度 密集 矩阵 表达 。 用 于 组 成 文本 的 每 一 个 特征 向 量 都 称 为 一 个 主题 ， 可 以 将 其 进行 绘图 展示 ， 而 展示 多 个 文本 词 的 方式 可 以 选择 为 词 云 的 方式 ， 如 图 9-7 所 





图 9-7 主题 展示 


由 图 9-7 可 以 看 到 ， 单 个 主题 内 容 展示 了 其 大 概 代表 的 主题 


， 在 图 9-7 中 ， 我 们 应 该 可 以 看 到 这 个 主题 是 天 于 医疗 的 。 当 然 一 篇 文章 可 能 有 多 个 主题 (特征 向 量 ) ， 我 们 对 其 利用 南 丁 格 尔 玫瑰 图 进行 展 
示 ， 展 示 结 果 如 图 9-8 所 示 。 
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图 9-8 ”文章 主题 比例 展示 


由 图 9-8 可 以 看 到 ， 通 过 玫瑰 图 可 以 对 每 篇 文章 的 主题 比例 进行 有 效 的 展示 ， 这 可 以 增强 数据 的 可 读 性 ， 而 文本 分 类 任务 就 是 对 主题 比例 进行 分 析 来 获得 的 。 


9.6 三 维 可 视 化 


三 维 数据 可 视 化 与 二 维 数据 类 似 ， 它 们 之 间 的 区 别 在 于 三 维 数据 可 视 化 加 入 了 Z 轴 信息 ， 因 此 其 展示 的 内 容 更 加 复杂 。 如 图 9-9 所 示 的 即 为 将 三 维 数据 直接 展示 于 地 图 之 上 。 
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图 9-9 三维 数据 可 视 化 


这 里 利用 ECharts 可 以 很 容易 地 完成 三 维 数据 的 可 视 化 ， 具 体 见 代码 清单 9-5: 


代码 清单 9-5”ECharts 地 图 柱状 图 


myChart.setOption ({ 


visualMap: { 
show: false, 
calculable: true, 
realtime: false, 
inRange: { 
color: ['#313695', '#4575b4', '#74addl', '#abd9e9', '#e0f3f8', '#ffffbf', '#fee090', '#fdae61', '#£46d43"', '#d73027', '#a50026'] 
}, 
outOfRange: { 
colorAlpha: 0 

















max: linedata[1] 
iv 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17708/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teac 
series: [{ 

type: 'bar3D', 

shading: 'realistic', 

coordinateSystem: 'mapbox', 

barSize: 0.2, 

silent: true, 

data: linedata[0] 


}); 


只 需要 定义 图 形 为 bar3D 即 可 。 
当然 也 可 以 利用 Matplotlib 完 成 对 三 维 数据 的 可 视 化 任务 ， 具 体 见 代码 清单 9-6: 


代码 清单 9-6 三 维 可 视 化 


from mpl toolkits.mplot3d import axes3d 
import matplotlib.pyplot as plt 

from matplotlib import cm 

import matplotlib.style as style 
style.use ('seaborn-darkgrid') 


# 定 义 三 维 画布 

fig = plt.figure() 

ax = fig.gca(projection='3d") 
PREG 

X, Y, Z = axes3d.get_test data(0.05) 




















# 绘制 surface 
ax.plot surface(X, Y, Z, rstride=8, cstride=8, alpha=0.3) 


# 绘制 等 值 线 





cset = ax.contourf (X, Y, Z, zdir='z', offset=-100, cmap=cm.coolwarm) 
cset = ax.contourf (X, Y, Z, zdir='x', offset=-40, cmap=cm.coolwarm) 
cset = ax.contourf (X, Y, Z, zdir='y', offset=40, cmap=cm.coolwarm) 
plt.show () 


Matplotlib 的 三 维 数据 可 视 化 功能 虽然 简单 ， 但 是 对 于 展示 效果 而 言 ，Matplotlib 相 比 于 ECharts 等 库 还 是 有 一 定 的 差距 ， 运 行 结果 如 图 9-10 所 示 。 
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图 9-10 ”Matplotlib 三 维 数据 可 视 化 


9.7 动态 可 钢化 


动态 数据 用 于 动态 地 展示 时 序数 据 ， 使 得 一 些 动态 过 程 的 展示 得 以 简化 ， 如 图 9-11 所 示 。 





图 9-11 梯度 下 降 法 动态 演示 


Matplotlib 之 中 ， 用 于 数据 动态 演示 的 方法 为 animation， 其 可 以 通过 函数 进行 简单 的 调用 ， 以 进行 动态 图 形 的 演示 工作 ， 图 9-11 展 示 的 即 为 动态 图 形 的 三 帧 。 代 码 清单 9-7 展 示 了 如 何 进行 动态 可 视 


化 : 
代码 清单 9-7 ”动画 展示 


import matplotlib.animation as animation 
animation.FuncAnimation (...) 








其 可 以 帮助 展示 数据 时 序 特征 ， 从 而 可 以 更 好 地 进行 分 析 与 展示 。 


动态 可 视 化 的 展示 方式 是 在 普通 的 图 表 之 上 不 断 地 修改 数据 并 进行 展示 ， 这 种 修改 是 通过 setOption 而 得 到 的 ， 在 实现 上 可 以 通过 函数 递归 的 方式 来 实现 动态 数据 的 可 视 化 工作 ， 代 码 如 下 : 


ECharts 中 的 数据 动态 交互 方式 更 加 完善 ， 





function update() { 

myChart . setOption (http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17708/OEBPS/Text/...) 
setTimeout (update, UPDATE DURATION) ; 
} 






































update (); 





最 终 效 果 如 图 9-12 所 示 。 





图 9-12 ECharts 展 示 动 态 数 据 


9.8 本草 小 结 


建立 在 更 高 的 代码 量 的 基础 上 的 。 所 以 说 对 于 可 视 化 任务 来 说 ， 第 一 步 也 是 最 重要 的 一 步 ， 那 就 是 确定 我 们 需要 用 图 表 和 解释 何 种 问题 。 


第 10 草 ”优化 实践 


在 深度 学 习 的 训 | 练 和 推断 过 程 中 ， 可 能 会 遇 到 各 种 各 样 的 问题 导致 整个 训练 过 程 出 现 瓶 颈 、 模 型 误差 较 大 或 者 性 能 不 好 。 本 章 将 主要 介绍 一 些 深度 学 习 以 及 框架 的 优化 实践 技巧 ， 规 避 一 些 常 见 的 深度 
学 习 问题 ， 以 达到 更 快 地 训练 和 推断 模型 ， 模 型 拥有 更 小 的 误差 ， 更 高 的 准确 度 等 效果 。 以 下 内 容 将 根据 具体 问题 进行 分 类 ， 每 个 内 容 项 都 将 会 介绍 相应 的 优化 实践 方法 。 


优化 和 具体 的 技巧 所 涉及 的 内 容 较 多 也 较为 琐碎 。 他 山 之 石 可 以 攻 玉 ， 希 望 本 章 对 读者 进行 后 续 总 结 和 积累 深度 学 习 实践 的 技 5 能 有 一 定 的 启发 ， 作 为 未 来 提升 优化 技巧 的 部 门 砖 。 如 果 读 者 想 要 更 深 
入 地 了 人 解 深度 学 习 训 | 练 的 技巧 ， 也 可 以 参考 一 些 经 典 的 优化 图 书 与 论文 ,例如 《Neural Networks: Tricks of The Trade》。 


练 优化 建议 





10.1 通用 深度 神经 网 络 训 | 


一 些 研发 人 员 和 工程 师 也 和 总结 了 一 些 通用 的 神经 网 络 训练 经 验 具体 如 下 。 
1) 通用 的 较为 优化 的 训练 过 程 [] 
将 问题 转换 为 相似 的 经 典 问题 场景 ， 参 照 Papet 中 的 配置 和 调 优 技巧 进行 最 初 的 实验 与 优化 。 
. 优化 算法 : 选用 随机 梯度 下 降 (SGD) 算法 ， 虽 然 批 量 梯度 下 降 (BGD) 相 比 SGD 有 一 些 优势 ， 但 是 在 处 理 大 规模 数据 时 ，SGD 及 其 优化 变种 更 加 简单 和 快速 。 
随机 Shuffle 样 本 : 应 尽量 避免 连续 处 理 的 样本 属于 同一 个 类 别 的 情况 。 尽 量 选择 当前 样本 能 让 模型 产生 较 大 的 误差 ， 而 不 是 较 小 的 误差 。 
:规范 化 数据 : 输入 的 每 个 变量 均值 最 好 趋 近 于 0。 变 换 输 入 变量 ， 使 其 协 方 差 相 近 ， 变 量 间 尽 量 不 要 相关 。 
BE BAHAR: 相 比 Sigmoid 激 活 函 数 ，tanh 和 ReLU 有 更 好 的 收敛 速度 。 
. 权重 初始 化 : 可 以 随机 通过 一 种 分 布 ( 例 如 均匀 分 布 等 ) ， 均 值 为 0， 标 准 差 为 
] 


o =m? (10.1) 


` 选择 学 习 率 (LeamingRate) : 每 个 权重 都 可 以 选取 属于 自己 的 学 习 率 。 处 于 低层 的 权重 学 习 率 最 好 大 于 高 层 的 权重 学 习 率 。 学 习 率 最 好 正比 于 每 个 单元 的 输入 数量 。 
2) CNN 训 练 过 程 中 通常 关注 的 优化 点 和 参数 
在 训练 CNN 的 过 程 中 ， 研 发 人 员 一 般 比 较 关 注 如 下 的 几 个 配置 和 优化 项 。 


© Learning Rate 


- Weight Decay 
- Momentum 

* Batsize 

- Init Weights 
数据 增强 


例如 ， 在 ResNet 四 中 ， 使 用 SGD 优 化 算法 优化 方法 训练 ，mini-batch 的 大 小 设置 为 256， 学 习 率 初始 化 为 0.1。 随 着 训练 进行 ， 当 Loss 不 再 下 降 ， 会 每 次 自 适应 以 10 倍 进行 缩减 学 习 率 。 模 型 训练 用 了 
60x 10446i4(E. Weight Decay 设 置 为 0.0001， 同 时 设置 momentum 为 0.9。 


3) RNN 训 练 过 程 中 通常 关注 的 优化 点 和 参数 

在 训练 RNN 的 过 程 中 ， 研 发 人 员 一 般 比较 关注 如 下 的 几 个 配置 和 优化 项 。 
- SGD 

正则 化 

. 规范 化 梯度 

- Pad Sentence 

- Init Weight 

- Batch Size 

- Eembedding#t A 

- 输出 控制 ，Vcabulary Size, Sampled Softmax 

这 里 以 Google 发 布 的 TTS 模 型 TACOTRON 为 例 ， 来 讲解 RNN 训 练 过 程 中 的 优化 点 和 参数 。 


训练 过 程 中 ， 首 先 需 要 进行 一 定 的 数据 预 处 理工 作 ， 训 练 使 用 Adam 优 化 算法 。 使 用 衰减 的 学 习 率 ， 初 始 值 为 0.001， 之 后 50x104 轮 迭代 、1x106 轮 迭代 和 2x106 轮 迄 代 之 后 学 习 率 依次 减少 为 0.005、 
0.0003 和 0.0001。 对 Seq2seq 的 Decoder 和 post-processing 网 络 使 用 带 有 L1 正 则 化 的 损失 函数 。 同 时 Batsize 设 置 为 322。 对 所 有 句子 Padding 到 一 个 最 大 长 度 保持 一 致 进行 训练 。 


后 续 的 一 些 章节 将 对 具体 的 有 关 优 化 的 概念 点 和 研究 点 进行 概要 介绍 。 


[1] 参考 资料 : Neural Networks:Tricks of the Trade. 


[2] Deep Residual Learning for Image Recognition. 


10.1.1 过 拟 合 与 从 拟 合 


我 们 在 训练 深度 神经 网 络 或 机 器 学 习 模型 的 时 候 ， 经 常会 出 现 欠 拟 合 和 过 拟 合 这 两 种 问题 。 初 始 模型 往往 是 欠 拟 合 的 ， 也 正 是 因为 如 此 才 有 了 优化 的 空间 ， 我 们 需要 不 断 地 调整 算法 来 使 得 模型 的 表达 
能 力 更 强 。 但 是 优化 到 了 一 定 的 程度 后 就 需要 解决 过 拟 合 的 问题 了 ， 深 度 神 经 网 络 因为 整体 网 络 结构 比较 复杂 ， 因 此 模型 拟 合 能 力 更 强 ， 训 | 练 的 技巧 就 在 于 如 何 解 决 过 拟 合 的 问题 。 


学 习 曲 线 就 是 对 于 不 同 大 小 的 训练 集 画 出 训练 集 和 交叉 验证 的 准确 率 ， 根 据 学 习 曲 线 可 以 看 到 模型 在 新 数据 上 的 表现 ， 进 而 来 判断 模型 是 否 方差 过 高 或 偏差 过 高 ， 如 图 10-1 所 示 。 
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图 10-1 过 拟 合 与 欠 拟 合 

若 训练 集 和 测试 集 的 误差 有 收敛 但 很 高 时 ， 则 为 高 偏差 ， 也 称 为 欠 拟 合 。 如 图 10-1 中 左上 角子 图 的 偏差 很 高 ， 但 训练 集 和 验证 集 的 准确 率 都 很 低 ， 这 就 很 可 能 是 欠 拟 合 。 
若 训练 集 和 测试 集 的 误差 之 间 有 较 大 的 差距 时 ， 则 为 高 方差 ， 也 称 为 过 拟 合 。 如 图 10-1 中 右上 角 的 子 图 ， 当 训练 集 的 准确 率 比 其 他 独立 数据 集 上 的 测试 结果 的 准确 率 要 高 时 ， 一 般 都 是 过 拟 合 。 
解决 过 拟 合 的 方法 具体 如 下 。 

正则 化 

+ 数据 增强 

- Early Stop 

- Dropout 

- Batch Nomalization 
解决 欠 拟 合 的 方法 具体 如 下 。 

. 使 用 更 加 复杂 的 深度 学 习 网 络 结构 。 


* 添加 其 他 特征 项 ， 有 时 候 模 型 出 现 欠 拟 合 的 情况 是 因为 特征 项 不 够 所 导致 的 ， 可 以 添加 其 他 特征 项 来 很 好 地 解决 这 个 


问题 。 


: 减少 正则 化 参数 和 组 件 ， 正 则 化 的 目的 是 用 来 防止 过 拟 合 ， 但 是 现在 模型 出 现 了 欠 拟 合 的 问题 ， 因 此 需要 减少 正则 化 参数 。 


10.1.2 ”数据 增强 
使 用 深度 学 习 技术 解决 问题 的 过 程 中 ， 一 个 常见 的 障碍 是 训练 模型 过 程 中 需要 大 数据 。 其 实 根本 原因 在 于 机 器 在 学 习 的 过 程 中 会 在 模型 中 遇 到 大 量 的 参数 。 同 时 为 了 防止 过 拟 合 ， 处 理 过 程 中 通常 也 需 

要 进行 数据 增强 (Data Augmentation) 。 针 对 不 同 的 数据 集 可 以 采用 不 同 的 方式 进行 扩 增 与 优化 。 
1) 对 于 图 像 数 据 ， 可 采用 如 下 处 理 方式 。 


* 图 像 平移 : 这 种 方法 将 会 使 得 网 络 学 习 到 平移 不 变 的 特征 。 


"图像 旋转 : 这 种 方法 将 会 使 得 网 络 学 习 到 旋转 不 变 的 特征 。 在 一 些 任务 中 ， 目 标 可 能 会 有 多 种 不 同 的 姿态 ， 旋 转正 好 可 以 弥补 样本 中 姿态 较 少 的 问题 。 
ARERR 

‘RH 

缩放。 

:图像 模糊 : 用 不 同 的 模板 卷 积 产生 模糊 图 像 。 

2) 语音 识别 中 对 输入 数据 添加 随机 噪声 等 方式 。 

3) NLP 中 常用 的 思路 是 进行 近义词 蔡 换 等 方式 。 


4) 噪声 注入 ， 可 以 对 输入 添加 噪声 ， 也 可 以 对 隐藏 层 或 者 输出 层 添 加 噪声 。 


10.1.3 ”梯度 消失 
实验 数据 显示 了 深度 神经 网 络 在 训练 过 程 中 ， 随 着 epoch 的 增加 各 隐藏 层 的 学 习 率 变化 。 前 面 隐藏 层 的 学 习 速 度 要 低 于 后 面 的 隐藏 层 。 这 种 现象 普遍 存在 于 神经 网 络 之 中 ， 称 为 消失 的 梯度 问题 
(Vanishing Gradient Problem) 。 


发 生 梯度 消失 的 原因 是 ， 根 据 链 式 法 则 ， 如 果 每 一 层 神经 元 对 上 一 层 输出 的 偏 导 乘 上 权重 结果 都 小 于 1 的 话 ， 那 么 即使 这 个 结果 是 0.99， 在 经 过 足够 多 层 的 传播 之 后 ， 误 差 对 输入 层 的 偏 导 也 会 趋 近 于 


解决 梯度 消失 问题 的 策略 具体 如 下 。 


1) BN (Batch Normalization) : Batch Normalization 在 深度 学 习 网 络 的 构建 过 程 中 是 网 络 的 一 层 。 在 前 文中 ， 我 们 提 到 过 网 络 除了 输出 层 之 外 ， 其 他 层 因为 前 面 的 隐藏 层 网 络 在 训练 的 时 候 更 新 了 
参数 ， 从 而 引起 后 面 层 输入 数据 分 布 的 变化 。BN 在 网 络 的 每 一 层 输入 的 时 候 ， 又 插入 了 一 个 归 一 化 层 ， 也 就 是 先 做 一 个 归 一 化 处 理 ， 然 后 再 进入 网 络 的 下 一 层 。 


2) RNN 中 使 用 LSTM : 适用 于 RNN， 门 控制 和 长 时 记忆 可 缓解 和 解决 梯度 消失 问题 。 
3) 激活 函数 ReLU: 新 的 激活 函数 解析 性 质 更 好 ， 其 在 一 定 程 度 上 克服 了 sigmoid 函 数 和 tanh 函 数 的 梯度 消失 问题 。 


4) 在 RNN 反 向 传播 过 程 中 减少 时 间 步 长 度 。 


10.1.4 ”初始 化 权 值 

权重 的 初始 化 在 深度 神经 网 络 中 比较 重要 ， 目 前 也 出 现 很 多 研究 和 实践 方法 致力 于 权重 初始 化 的 提升 。 在 几何 上 可 以 理解 为 ， 在 参数 解 空间 内 ， 好 的 权重 初始 化 方式 ， 意 味 着 离 全 局 最 小 值 更 近 。 开 发 
者 可 以 根据 不 同 的 深度 神经 网 络 情况 进行 选择 。 

高 斯 初始 化 ， 为 权重 初始 化 较 小 的 值 ， 权 重 按照 高 斯 分 布 随机 进行 初始 化 ， 固 定 均值 (例如 0) 和 方差 (例如 0.01) ， 这 是 使 用 较为 广泛 的 一 种 权重 初始 化 方式 。 

Xaiver 更 新 方法 ， 使 用 tanh 为 激活 函数 ， 效 果 较 好 。 进 行 梯度 更 新 时 ， 收 敛 速度 较 好 。 然 而 这 种 方法 没有 考虑 以 ReLU 为 激活 函数 的 情况 。 


MSRA 方 法 ， 由 kaiming he 等 提出 ， 适 用 于 从 头 训练 深层 深度 神经 网 络 的 网 络 结构 。 权 重 以 高 斯 分 布 随机 进行 初始 化 ， 方 差 需要 考虑 空间 过 滤器 的 大 小 和 过 滤器 数量 的 影响 。 


10.1.5 ”优化 算法 
在 一 些 经 典 论 文中 ， 对 于 优化 算法 ， 大 型 公司 通常 自行 实现 自己 的 框架 ， 一 般 都 会 比较 关注 优化 算法 中 Learning Rate, Momentum, Weight Decay 和 Batchsize 的 设置 。 小 公司 或 科研 人 员 经 常 采用 
通用 的 框架 和 工具 如 Tensoflow、Caffe、GPU 等 ， 近 些 年 的 工作 较为 常用 的 是 采用 Adam 优 化 算法 。 


如 果 用 户 希 望 快速 收敛 ， 或 者 训练 一 个 复杂 的 神经 网 络 ， 或 者 数据 是 稀 琉 数据 ， 那 么 推荐 用 户 选择 自 适 应 学 习 率 的 方法 。 这 样 做 的 好 处 是 不 用 再 去 手动 调节 学 习 率 ， 基 于 默认 值 ， 也 能 达到 相对 最 好 的 


结果 。 


很 多 算法 都 是 系列 算法 的 变种 。RMSprop 是 Adagrad 的 一 个 扩展 。RMsprop 类 似 于 Adadelta， 除 了 在 更 新 规则 上 Adadelta 使 用 了 RM 参数 更 新 规则 。Adam 相 比 RMSprop 增 加 了 bias-correction 和 
动量 。RMSprop、Adadelta 和 Adam 是 三 种 非常 相似 的 算法 ， 它 们 适用 的 场景 也 非常 相似 。Adam 相 比 于 这 些 相近 算法 是 表现 更 好 的 算法 。Kingma et al 论文 中 提 到 过 ，Adam 的 bias-correction 使 得 在 优 
化 的 最 后 阶段 ， 当 梯度 稀 踊 时 ，Adam 算 法 相 比 RMSprop 拥 有 少量 的 优势 。 


一 一 


最 近 的 一 些 论文 中 使 用 Vanilla SGD 结 合 动量 与 简单 的 学 习 率 进行 训练 。SGD 方 法 相 比 于 其 他 优化 算法 通常 会 耗费 更 长 的 时 间 ， 依 赖 相对 鲁 棒 的 初始 化 ， 也 有 可 能 在 鞍点 停滞 。 


Sebastian Ruder 的 这 篇 论文 [中 给 出 了 常用 优化 器 的 比较 。 


[1] 论文 参考 链接 : https://arxiv.org/pdf/1609.04747.pdf. 


10.1.6 ESU 


超 参数 优化 是 深度 学 习 中 的 重要 组 成 部 分 。 其 原因 在 于 ， 深 度 神 经 网 络 模型 结构 复杂 ， 难 以 配置 ， 而 且 又 有 很 多 参数 需要 设置 ， 同 时 个 别 模型 的 训练 非常 缓慢 。 


业界 也 有 尝试 借助 自动 化 搜索 网 络 架 构 和 参数 的 研究 AutoML， 将 研究 人 员 从 繁重 的 调 参 中 解脱 出 来 。 一 个 称 为 AutoML challenge 的 挑战 任务 (资助 者 包括 微软 、 英 伟 达 等 ) 使 得 很 多 团队 能 够 自行 选 
择 模型 和 调整 参数 ， 而 无 须 人 为 干预 。 


深度 


- 在 验证 集 上 进行 


学 习 参 数 调 优 通常 包括 如 下 一 些 实践 经 验 。 


WA. 


- 优先 调 Leatning Rate. 


“ 另 一 个 技巧 是 通过 


- 调整 模型 的 层 数 和 卷 积 


下 面 将 通 


实战 实例 


甬 过 Scikit-learn 的 网 格 搜 索 库 进行 


初期 设计 卷 和 


号 


只 层 尽 量 深 、 卷 积 核 尽量 多 的 模型 ， 强 行 让 模型 拟 合 训练 集 ， 这 时 会 出 现 过 拟 合 ， 之 后 通过 Dropout、 正 则 化 和 Data augument 等 方式 改善 模型 效果 。 


te Es I 


该 数 量 。 这 两 个 参数 都 是 对 模型 理 具有 较 大 影响 的 参数 ， 初 期 不 建议 调整 。 因 为 调整 后 很 多 参数 都 需要 重新 调 优 。 


参数 调 优 实例 的 讲解 。 


通过 Scikit-learn 中 的 Grid Search 参 数 搜索 调 优 Keras 模 型 中 的 参数 。 


参数 


数据 集 下 载 


在 一 个 小 型 的 标准 机 器 学 习 数 据 集 上 来 


下 载 地 址 : 


常会 
pa 


搜索 一 些 常见 


Ze 
2 


的 神经 网 络 参 数 ， 使 其 模型 在 相应 的 数据 集 上 达到 较 好 的 效果 ， 例 如 学 习 速 率 、Dropout、Epochs 和 神经 元 数量 等 。 


演示 本 示例 ， 该 数据 集 被 称 为 Pima Indians Onset of Diabetes 分 类 数据 集 


http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/ 


下 载 数据 集 ， 并 把 它 放置 在 你 目前 的 工作 目录 下 ， 命 名 为 pima-indians-diabetes.csv。 


搜索 最 优 BatchSize 和 Epochs 


在 这 里 ， 我 们 将 以 20 的 步 长 ， 从 10 到 100 逐 步 评 估 不 同 的 微型 批 尺 寸 。Epochs 分 另 


设 置 为 10、50、100。 


完整 实例 如 代码 清单 10-1 所 示 : 




































































































































































代码 清单 10-1 参数 搜索 最 优 的 BatchSize 和 Epochs 
import numpy 
from sklearn.grid search import GridqSearchCV 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.wrappers.scikit learn import KerasClassifier 
# Function to create model, required for KerasClassifier 
def create model () : 
# create model 
model = Sequential () 
model.add(Dense (12, input dim=8, activation='relu"') ) 
model.add (Dense (1, activation='sigmoid') ) 
# Compile model 
model .compile (loss='binary crossentropy', optimizer='adam', 
metrics=['accuracy']) 
return model 
# fix on seed for reproducibility 
seed = 
numpy. aden: seed (seed) 
# load dataset 
dataset = numpy.loadtxt ("pima-indians-diabetes.csv", delimiter=",") 
# split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
# create model 
model = KerasClassifier (build fn=create model, verbose=0) 
# define the grid search parameters 7 
batch size = [10, 20, 40, 60, 80, 100] 
epochs = [10, 50, 100] 
param grid = dict (batch size=batch size, nb epoch=epochs) 
grid = GridSearchCv (estimator=model, param grid=param grid, n jobs=-1) 
grid result = grid.fit(X, Y) 
# summarize results 
print ("Best: sf using %s" % (grid result.best score , 
grid result.best params )) 7 7 
for params, mean_score, scores in grid _result.grid_scores : 
print ("Sf (Sf) with: sr" % (scores.mean(), scores.std(), params) ) 














运行 之 后 输出 如 代码 清单 10-2 所 示 : 





















































代码 清单 10-2 预测 结果 

Best: 0.686198 using {'nb epoch': 100, "patch size': 20} 
0.348958 (0.024774) with: {'nb epoch': 10, 'batch size': 10} 
0.348958 (0.024774) with: {'nb epoch': 50, 'batch size': 10} 
0.466146 (0.149269) with: {'nb epoch': 100, 'batch size': 10} 
0.647135 (0.021236) with: {'nb epoch': 10, 'batch size': 20} 
0.660156 (0.014616) with: {'nb epoch': 50, 'batch size': 20} 
0.686198 (0.024774) with: {'nb epoch': 100, ‘batch size': 20} 
0.489583 (0.075566) with: {'nb epoch': 10, 'batch size': 40} 
0.652344 (0.019918) with: {'nb epoch': 50, 'batch size': 40} 
0.654948 (0.027866) with: {'nb epoch': 100, 'batch size': 40} 
0.518229 (0.032264) with: {'nb epoch': 10, 'batch size': 60} 
0.605469 (0.052213) with: {'nb epoch': 50, ‘batch size': 60} 
0.665365 (0.004872) with: {'nb epoch': 100, 'batch size': 60} 
0.537760 (0.143537) with: {'nb epoch': 10, 'batch size': 80} 
0.591146 (0.094954) with: {'nb epoch': 50, 'batch size': 80} 
0.658854 (0.054904) with: {'nb epoch': 100, ‘batch size': 80} 
0.402344 (0.107735) with: {'nb epoch': 10, 'batch size': 100} 
0.6523 (0.033299) with: {'nb epoch': 50, 'batch size’: 100} 
0.542969 (0.157934) with: {'nb epoch': 100, 'batch size': 100} 

















由 代码 清单 10-2 我 们 可 以 看 到 ， 批 尺寸 为 20、100 的 时 人 息 ，epochs 能 够 获得 最 好 的 结果 ， 精 确 度 约 为 68%。 


10.2 


深度 学 习 系 统 性 能 优化 建议 


本 章 主要 讲解 深度 学 习 框 架 及 代码 的 一 些 系 统 和 程序 性 能 的 优化 技巧 ， 实 例 将 通过 TensorFlow 进 行 介绍 。TensorFlow 官 方 也 曾 发 布 过 相关 的 性 能 优化 技巧 ， 想 要 深入 了 解 的 读者 可 以 前 往 查看 参考 。 


10.2.1 输入 及 预 处 理 流水 线 优化 

本 节 将 介绍 典型 的 模型 训练 过 程 ， 从 磁盘 中 读 取 数据 ， 并 对 其 进行 预 处 理 。 例 如 ， 处 理 JPEG 图 像 的 模型 将 遵循 以 下 流程 :从 磁盘 读 取 图 像 ， 将 JPEG 预 处 理 为 张 量 ， 进 行 数据 预 处 理 裁剪 、 翻 转 等 ， 然 后 
进行 批 处 理 操作 ， 该 流程 可 以 被 称 为 输入 流水 线 。 随 着 GPU 和 其 他 加 速 器 的 加 速 ， 数 据 的 预 处 理 可 能 会 成 为 瓶颈 。 

通过 运行 “watch-n 2 nvidia-smi” 来 检查 GPU 是 否 未 被 充分 利用 。 

通过 Timeline 或 Tensorboard 等 可 视 化 工具 进行 观察 。 

估计 所 需 的 吞吐 量 ， 并 验证 所 使 用 的 磁盘 是 否 能 够 达到 该 级 别 的 吞吐 量 。 
1. 在 CPU 端 进行 预 处 理 

在 CPU 上 放置 输入 预 处 理 操作 可 以 显著 提高 性 能 ， 这 样 GPU 就 可 以 专注 于 训练 了 。 

为 了 确保 在 CPU 上 进行 预 处 理 ， 可 以 使 用 如 下 实例 让 数据 预 处 理 代 码 在 CPU 端 运行 ， 具 体 见 代 码 清单 10-3: 


代码 清单 10-3 ”控制 代码 在 CPU 端 执行 





with tf.device ('/cpu:0'): 
# function to get and process data. 
distorted inputs = load and Preprocess images () 











2. 使 用 大 文件 
读 取 大 量 的 小 文件 会 显著 影响 |/O 性 能 。 
1) 转换 为 TFRecord 格 式 : 获得 最 大 MO 吞吐 量 的 一 种 方法 是 将 输入 数据 预 处 理 成 更 大 (~ 100MB) 的 TFRecord 文 件 。 


2) 小 数据 集 加载 到 内 存 : 对 于 较 小 的 数据 集 (200MB ~ 1GB) ， 最 佳 的 方法 通常 是 将 整个 数据 集 加 载 到 内 存 中 。 


10.2.2 数据 格式 
处 理 图 像 数据 时 ， 图 像 数据 可 以 采用 不 同 的 格式 ， 不 同 的 格式 适用 于 不 同 的 处 理 器 进行 处 理 。data_format 设 置 为 “NHWC” 时， 排列 顺序 为 [batch，height，width，channels]; 设置 


为 “NCHW” 时 ， 排 列 顺序 为 [batch，channels，height，width]。 其 中 N 表 示 这 批 图 像 上 有 几 张 ，H 表 示 图 像 在 竖 直方 向 有 多 少 像素 ，W 表 示 在 水 平方 向 的 像素 数 ，C 表 示 通 道 数 (例如 黑白 图 像 的 通道 数 
C=1， 而 RGB 彩色 图 像 的 通道 数 C=3) 。 


两 种 格式 的 区 别 如 图 10-2 所 示 (实例 使 用 RGB 三 通道 图 像 ) 。 


NHWC 





图 10-2 NCHW 和 NHWC 格 式 
NHWC 的 访 存 局 部 性 更 好 (每 三 个 输入 像素 即 可 得 到 一 个 输出 像素 ) ，NCHW 则 必须 等 所 有 通道 输入 都 准备 好 后 才能 得 到 最 终 的 输出 结果 ， 需 要 占用 较 大 的 临时 空间 。 
TensorFlow 选 择 NHWC 格 式 作 为 默认 格式 ， 因 为 早期 开发 都 是 基于 CPU 的 ， 使 用 NHWC 比 NCHW 稍 快 一 些 。 因 为 NHWC 局 部 性 更 好 ，cache 利 用 率 更 高 。 
NCHW 则 是 Nvidia cuDNN 的 默认 格式 ， 使 用 GPU 加 速 时 用 NCHW 格 式 速 度 会 更 快 。 


最 佳 实践 : 设计 网 络 时 充分 考虑 这 两 种 格式 ， 最 好 能 够 灵活 切换 ， 在 CPU 上 训练 时 使 用 NCHW 格 式 ， 在 CPU 上 做 预测 时 使 用 NHWC 格 式 。 


10.2.3 ”编译 优化 


TensorFlow 的 默认 二 进 制版 本 是 为 了 适 配 更 通用 的 硬件 和 操作 系统 ， 所 以 ， 没 有 采用 很 多 针对 特定 硬件 的 编译 优化 。 
如 果 使 用 CPU 进行 训练 和 推断 ， 则 官方 推荐 使 用 所 有 可 用 的 针对 CPU 的 优化 方式 对 TensorFlow 进 行 编译 。 这 样 就 可 以 利用 操作 系统 和 平台 的 特定 优化 指令 和 编译 优化 技术 进行 优化 。 
下 面 的 编译 优化 实例 的 命令 是 通过 bazel 命 令 对 特定 平台 对 TensorFlow 进 行 编译 ， 具 体 见 代码 清单 10-4: 


代码 清单 10-4 编译 TensorFlow 








bazel build -c opt --copt=-march="broadwell" --config=cuda 
//tensorflow/tools/pip package:build pip package 




















10.2.4 GPU 性 能 瓶颈 诊断 


深度 学 习 的 工作 负载 很 多 都 是 计算 密集 型 任务 ， 一 般 可 以 参考 如 下 的 分 析 步 骤 对 作业 进行 优化 。 

1) 对 代码 进行 性 能 分 析 。 

2) 找到 运行 慢 的 阶段 。 

3) 分 析 运 行 慢 的 原因 。 

4) 修改 成 更 快 的 实现 。 

5) 再 次 对 代码 进行 性 能 分 析 。 

处 理 器 有 两 个 关键 的 性 能 瓶颈 : 一 个 是 浮 点 计算 量 ， 另 一 个 是 内 存 吞 吐 量 。GPU 需 要 高 并 行 性 ， 才 能 发 挥 其 全 部 能 力 ， 可 以 通过 下 面 的 工具 进行 深度 学 习作 业 的 性 能 分 析 。 
(1) TensorFlow 性 能 分 析 工 具 Timeline 

通过 TensorFlow 中 的 Timeline 对 象 ， 获 取 执 行 图 中 每 个 节点 的 执行 时 间 。 可 以 参考 以 下 步骤 进行 Timeline 分 析 。 
1) 创建 metadata 运 行 时 对 象 。 

2) 获取 运行 时 信息 创建 Timeline 对 象 。 

3) 将 Timeline 对 象 写 入 json 文 件 。 

4) Chrome 加 载 trace 的 json 文 件 。 

参考 代码 实例 如 代码 清单 10-5 所 示 : 


代码 清单 10-5 TensorFlow 使 用 Timeline 进 行 性 能 分 析 











import tensorflow as tf 
from tensorflow.python.client import timeline 


















































x = tf.random normal ([1000, 1000]) 

y = tf.random normal ([1000, 1000]) 

res = tf.matmul (x, y) 

# Run the graph with full trace option 

















with tf.Session() as sess: 



































run options = tf£.RunOptions (trace level=tf.RunOptions.FULL TRACE) 
run metadata = tf.RunMetadata () 
sess.run(res, options=run_ options, run metadata=run metadata) 





# 创建 Timeline 对 象 ,将 其 写 入 json 文 件 


tl = timeline.Timeline (run metadata.step stats) 























ctf = tl.generate chrome trace format () 
with open('timeline.json', 'w') as f: 
fF. write (ctf) 














可 以 打开 谷歌 Chrome 浏 览 器 ， 转 到 chrome: /Wtracing 页 并 加 载 timelinejjson 文 件 。 浏 览 器 将 呈现 以 下 操作 符 和 设备 的 运行 时 间 ， 可 以 进行 程序 的 profiling， 如 图 10-3 所 示 。 








‘Record || Save || Load  timeline.json | View Options » || 





| -10 ms û ms 10 ms 20 ms 30 ms 40 ms 50 ms 60 ms 70 ms 80 ms 


~ /job:localhost/replica:O/ask:0/cpu:0 Compute (pid 1) 


1 RandomstandardNomal Add 











1 item selected: Slice (1) 





Title MatMul Event(s) Link 

Category Op Incoming flow random_normal 

Start 24,760 ms Outgoing flow random_normal 

Wall Duration 66,709 ms Preceding events 5 events of various types 

vArgs Following events 2 events of various types 

inputo "random_normal" All connected events 7 events of various types 
inputi "random normal 1” 
name "MatMul” 
op "MatMul” 


图 10-3 Timeline Trace 分 析 图 
(2) 常用 的 GPU 分 析 工 具 
市 面 上 已 经 有 英 伟 达 或 第 三 方 提供 的 众多 工具 用 于 CPU 的 性 能 分 析 ， 主 要 如 下 。 
. nvprof 是 英 伟 达 性 能 分 析 工 具 。 


nvvp 则 是 带 GUI 的 英 伟 达 可 视 化 性 能 分 析 工 具 。 


10.2.5 ”CPU 瓶 须 优 化 


如 果 发 现在 运算 中 CPU 是 计算 瓶 责 ， 那 么 可 以 通过 以 下 几 种 方式 进行 优化 。 


(1) 多 线程 方式 优化 

以 下 两 个 针对 TensorFlow 的 配置 可 以 通过 适 配 线程 池 进 行 CPU 的 性 能 优化 。 
- intra_op_parallelism_threads: 对 TensorFlow 操 作 符 内 部 的 任务 进行 并 行 化 。 
- Inter_op_parallelism_threads: 控制 多 个 运算 符 之 间 的 并 行 化 运算 。 


配置 实例 如 代码 清单 10-6 所 示 : 


代码 清单 10-6 ”多 线程 优化 











config = tf.ConfigProto () 












































config.intra_ op parallelism threads = 22 
config.inter op parallelism threads = 22 
tf.session (config=config) 











(2) 使 用 SIMD 高 级 指令 集 
更 多 的 系统 优化 经 验 可 以 参考 TensorFlow 官 方 文档 的 “Performance Guide” 6l], 


[1] https://www.tensorflow.org/performance/performance_guide o 


10.2.6 ”模型 压缩 


CNN 模 型 在 不 断 副 近 计算 机 视觉 任务 的 精度 极限 的 同时 ， 其 深度 和 尺寸 也 在 成 倍增 长 。 在 在 线 推断 阶段 ， 模 型 压缩 可 以 减少 模型 参数 的 数量 ， 进 而 加 速 在 线 推断 。 


近年 来 ， 关 于 模型 小 型 化 的 算法 从 压缩 角度 上 大 致 可 以 分 为 两 类 : 从 模型 权重 的 角度 进行 压缩 和 从 网 络 架 构 的 角度 进行 压缩 。 从 网 络 架构 角度 的 方式 ， 一 般 是 通过 提出 新 的 网 络 结构 或 卷 积 方法 进行 压 
缩 优化 ， 例 如 SqueezeNet、MobileNets 等 。 从 模型 权重 角度 的 方式 ， 一 般 是 在 已 经 训练 好 的 模型 上 进行 裁 问 ， 然 后 fine-tuning 到 原 有 模型 的 准确 率 。 一 般 的 优化 方式 包括 问 枝 、 权 值 共享 、 神 经 网 络 二 值 


化 等 。 
另 一 方面 ， 从 兼顾 计算 速度 方面 又 可 以 划分 为 : 仅 压 缩 尺 寸 和 压缩 尺寸 的 同时 提升 速度 。 
如 表 10-1 所 示 的 是 模型 压缩 方法 的 对 比 。 


表 10-1 模型 压缩 方法 对 比 


方法 是 否 考虑 速度 
Deep Compression No 


方法 压缩 方式 是 否 考虑 速度 


10.3 ”工程 实践 建议 


10.3.1 Model 格 式 转换 

在 一 些 场景 下 用 户 需 要 使 用 pre-trained model， 但 是 开发 者 熟悉 的 框架 ， 或 者 生产 环境 的 历史 遗留 框架 ， 并 不 是 pre-trained model 训 | 练 的 框架 。 或 者 是 想 集成 进 pre-trained model 进 行 再 训练 ， 这 
时 框架 间 的 模型 转换 就 非常 实用 了 。 

之 前 很 多 工程 师 编写 了 针对 两 种 框架 模型 之 间 转 换 的 代码 ， 也 可 以 参考 一 些 开 源 爱 好 者 总 结 的 模型 转换 器 列表 ， 方 便 查 找 对 应 的 模型 转换 器 。 

参考 链接 : 

deep-learning-model-convertor 

https://github.com/ysh329/deep-learning-model-convertor 

微软 也 开源 了 MMDNN， 可 以 进行 不 同 深度 学 习 框 架 之 间 模 型 格式 转换 以 及 可 视 化 。 支 持 的 框架 包括 Caffe、TensorFlow、CNTK 等 主流 框架 。 

官网 链接 : 


https://github.com/Microsoft/MMdnn 


10.3 ”工程 实践 建议 


10.3.1 


在 一 些 场景 下 用 户 需 要 使 用 pre-trained model， 但 是 开发 者 熟悉 的 框架 


Model 格 式 转换 


时 框架 间 的 模型 转换 就 非常 实用 了 。 


之 前 很 多 


参考 链接 : 


deep-learning-model-convertor 


https://github.com/ysh329/deep-learning-model-convertor 


微软 也 开源 了 MMDNN ， 可 以 进行 


官网 链接 : 


https://github.com/Microsoft/MMdnn 


10.3.2 迁移 学 习 


~ 


已 经 学 到 的 模 


下 面 我 们 通 


1) 在 MNIST 数 据 集 上 训练 一 个 简单 的 卷 积 神经 


迁移 学 习 (Transfer Learning) 


型 参数 分 享 给 新 模型 


过 一 个 实例 来 了 解 迁移 学 


2) 将 训练 好 的 预测 0 ~ 4 数据 集 的 模型 


， 应 用 到 5 ~ 9 数据 集 上 。 对 模型 冻结 卷 


代码 清单 10-7 所 示 的 为 Keras 迁 移 学 习 的 示例 代码 : 


代码 清单 10-7 ”Keras 迁 移 学 习 实 例 


思想 是 将 训练 好 的 模型 参数 迁移 到 新 的 模型 来 帮助 新 模型 的 训练 和 预测 。 因 为 在 很 多 
， 从 而 加 快 并 优化 模型 的 效率 。 这 样 模 和 到 


习 ， 实 例 通过 MNI1ST 数 据 集 0 ~ 4 的 数字 训练 一 个 模型 ， 


网 络 ， 只 预测 0 ~ 4 的 数字 。 


， 或 者 生产 环境 的 历史 遗留 框架 


型 就 不 必 每 次 都 从 头 训练 ， 防 止 绕 弯路 


， 并 不 是 pre-trained model 训 练 的 框架 。 或 者 是 


工程 师 编写 了 针对 两 种 框架 模型 之 间 转 换 的 代码 ， 也 可 以 参考 一 些 开 源 爱 好 者 总 结 的 模型 转换 器 列表 ， 方 便 查 找 对 应 的 模型 转换 器 


不 同 深度 学 习 框架 之 间 模 型 格式 转换 以 及 可 视 化 。 支 持 的 框架 包括 Caffe、TensorFlow、CNTK 等 主流 框架 。 


况 下 ， 数 据 或 任务 之 间 是 存在 相关 性 的 ， 所 以 通 


型 迁移 到 5 ~ 9 数据 集 上 进行 迁移 学 习 ， 流 程 如 下 。 


积 层 参 数 ，Fine-Tuning 全 连接 层 。 


想 集成 进 pre-trained model 进 行 


甬 过 it 
过 


再 训练 ， 


=> 


Ww 


迁移 学 习 的 方式 ， 我 们 可 以 将 





from 





u 





function 











ture _ 








impor 


t da 





tetime 


import print 


import keras 


from keras. 


from keras.datasets import mnis 
from keras. models import 
ayers import 








from keras.layers import 




















Sequent 


Dense, 





ial 
Dropout, Activation, 


Conv2D, MaxPooling2D 


from keras import backend as K 


now = datetime.datetime.now 





batch size = 128 


num classes = 5 

epochs = 5 

# input image dimensions 
img rows, img cols = 28, 


28 











# number of convolutional 


filters = 32 




















# size of poo 
pool size = 2 
# convolution 


ling area 


kernel size 





kernel size = 


3 














filters to use 


for max pooling 

















if K.image data format() == 'channels first’ 
input shape = (1, img rows, img cols) 
else: 
input shape = (img rows, img cols, 1) 




































































Flatten 














def train model (model, train, test, num classes): 
x train = train[0].reshape((train[0].shape[0],) + input _ shape) 
x test = test[0].reshape((test[0].shape[0],) + input shape) 
x train = x train.astype ('float32') 
x test = x test.astype('float32') 
x train /= 255 
x test /= 255 
print ('x train shape:', x train.shape) 
print (x train.shape[0], 'train samples’) 
print (x test.shape[0], 'test samples') 
# convert class vectors to binary class matrices 
y train = keras.utils.to categorical (train[1], num classes) 
y test = keras.utils.to categorical (test[1], num classes) 











model .compile (loss='categorical crossen 


Op 
me 


timizer='adadel 


ta', 


trics=['accuracy']) 





tropy', 


t = now() 


model. fit (x train, 
batch_size=batch_size, 


print 





epochs=epochs, 
verbose=1, 





y train, 





validation data= 
("Training time: 








Dal oa 
5S 6 


(x test, y test)) 


(now() - t)) 








score = model.evaluate(x test, y test, verbose=0) 
print ('Test score:' 


print ('Test accuracy: 


# the data, shuf 
(x train, y train), 





























, score[0]) 
', score[1]) 





fled and split between train and tes 








(x test, y test) = mnist.load da 


ta() 


T Sets 








# create two datasets one with digits below 5 and one with 5 and above 


x train 1 





y train 





t5 = x train[y 




















train < 5] 


lt5 = y train[y train < 5] 





x test 1t5 = x test[y test < 5 
y test 1t5 = y test[y test < 5 


























. train gte5 = x train[y train >= 5] 


x 
y train gte5 = y train[y train >= 5] - 5 
x test gtes x test[y test >= 5] 
了 
# d 



































test gte5 Y_test[y test >= 5] - 5 
































fine two groups of layers: feature (convolutions) and classification (dense) 
eae layers = [ 
Conv2D(filters, kernel size, 
padding='valid', — 
input shape= TU shape) , 
Activation('relu'), 
Conv2D(filters, kernel size), 
Activation ('relu'), | 
MaxPooling2D (pool size=pool size), 
Dropout (0.25), 
Flatten (), 















































] 





classification layers = [ 
Dense (128), 
Activation('relu'), 
Dropout (0.5), 
Dense (num classes), 
Activation ('softmax') 

















] 





# create complete model 
model = Sequential (feature layers + classification layers) 



































# train model for 5-digit classification [Ohttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17708/OEBPS/Text/..4] 
train model (model, 
(x train 1t5, y train 1t5), 


(x test 1t5, y test 1t5), num classes) 





























# freeze feature layers and rebuild model 


for l in feature layers: 
l.trainable = False 



























































# transfer: train dense layers for new classification task [Shttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17708/OEBPS/Text/..9] 
train model (model, 
~ (x train gte5, y train gte5), 
(x test gte5, y test gte5), num classes) 





10.3.3 ”在 线 推断 TensorFlow Serving 


TensorFlow Serving 由 是 一 种 用 于 深度 学 习 模型 的 高 性 能 开源 服务 系统 ， 作 为 深度 学 习 生 产 环境 的 在 线 推断 设计 ， 可 针对 TensorFlow 框 架 进行 优化 处 理 。 
TensorFlow Serving 非 常 适用 于 大 规模 运行 。 对 会 经 常 发 生动 态 改变 的 多 重 模型 ， 其 提供 了 模型 的 全 流程 和 生命 周期 的 管理 ， 并 且 提 供 多 重 算法 进行 试验 。 对 底层 硬件 方面 ， 优 化 了 对 GPU 的 使 用 。 


[1] Tensorflow Serving 官 网 简介 : https://www.tensorflow.org/serving/ o 


10.4 ”本 章 小 结 


本 章 首先 介绍 了 深度 学 习 优 化 技巧 的 重要 性 ， 之 后 结合 会 遇 到 的 具体 问题 分 类 进行 相应 的 优化 介绍 ， 读 者 可 以 尝试 以 手册 的 形式 来 学 习 本 章 ， 遇 到 | 具体 问题 时 寻找 相应 的 解决 思路 和 方案 。 本 章 首先 介 
绍 了 过 拟 合 与 从 拟 合 的 问题 ， 介 绍 了 其 中 的 原因 以 及 应 对 方案 。 之 后 介绍 了 深度 学 习 数 据 不 足 的 问题 ， 由 于 深度 学 习 发 展 中 大 数据 是 很 重要 的 支撑 ， 所 以 数据 量 对 深度 学 习 的 模型 训练 影响 较 大 。 之 后 
召 了 深度 学 习 相 比 其 他 人 工 智能 算法 所 特有 的 一 些 问题 ， 例 如 梯度 消失 、 网 络 权重 初始 化 、 深 度 学 习 优化 算法 等 。 除 了 算法 的 优化 技巧 ， 介绍 了 参数 调 优 、 梯 度 检测 ， 以 及 神经 网 络 训练 技巧 等 工程 
化 深度 学 习 的 方式 与 方法 。 最 后 结合 TensorFlow 讲 解 了 深度 学 习 系 统 性 能 优化 的 问题 及 技巧 。 
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